Elasticsearch搜索集群係統在生産和生活中發揮著越來越重要的作用。本書介紹瞭Elasticsearch的使用、原理、係統優化與擴展應用。本書用例子說明瞭Java、Python、Scala和PHP的編程API,其中在Java搜索界麵實現上,介紹瞭使用Spring實現微服務開發。為瞭擴展Elasticsearch的功能,本書以中文分詞和英文文本分析為例介紹瞭插件開發方法。本書介紹瞭使用Elasticsearch作為數據管理平颱的日誌監控與分析方法,介紹瞭使用OCR從圖像中提取文本以及問答式搜索的開發方法。
第1章 使用Elasticsearch 1
1.1 基本概念 1
1.2 安裝 2
1.3 搜索集群 5
1.4 創建索引 6
1.5 使用Java客戶端接口 9
1.5.1 創建索引 11
1.5.2 增加、刪除與修改數據 14
1.5.3 分析器 16
1.5.4 數據導入 17
1.5.5 通過攝取快速導入數據 17
1.5.6 索引庫結構 17
1.5.7 查詢 18
1.5.8 區間查詢 22
1.5.9 排序 23
1.5.10 分布式搜索 23
1.5.11 過濾器 24
1.5.12 高亮顯示 24
1.5.13 分頁 25
1.5.14 通過聚閤實現分組查詢 26
1.5.15 文本列的聚閤 27
1.5.16 遍曆數據 28
1.5.17 索引文檔 29
1.5.18 Percolate 29
1.6 RESTClient 30
1.6.1 使用攝取 31
1.6.2 代碼實現攝取 33
1.7 使用Jest 33
1.8 Python客戶端 37
1.9 Scala客戶端 40
1.10 PHP客戶端 43
1.11 SQL支持 44
1.12 本章小結 48
第2章 開發插件 49
2.1 搜索中文 49
2.1.1 中文分詞原理 49
2.1.2 中文分詞插件原理 51
2.1.3 開發中文分詞插件 53
2.1.4 中文AnalyzerProvider 55
2.1.5 字詞混閤索引 57
2.2 搜索英文 60
2.2.1 句子切分 60
2.2.2 標注詞性 62
2.3 使用測試套件 64
2.4 本章小結 68
第3章 管理搜索集群 69
3.1 節點類型 69
3.2 管理集群 69
3.3 寫入權限控製 70
3.4 使用X-Pack 71
3.5 快照 72
3.6 Zen發現機製 73
3.7 聯閤搜索 74
3.8 緩存 74
3.9 本章小結 75
第4章 源碼分析 76
4.1 Lucene源碼分析 76
4.1.1 Ivy管理依賴項 76
4.1.2 源碼結構介紹 76
4.2 Gradle 77
4.3 Guice 77
4.4 Joda-Time 79
4.5 Transport 80
4.6 綫程池 80
4.7 模塊 80
4.8 Netty 81
4.9 分布式 81
4.10 本章小結 82
第5章 搜索相關性 83
5.1 BM25檢索模型 83
5.1.1 使用BM25檢索模型 86
5.1.2 參數調優 86
5.2 學習評分 86
5.2.1 基本原理 87
5.2.2 準備數據 87
5.2.3 Elasticsearch學習排名 89
5.3 本章小結 91
第6章 搜索引擎用戶界麵 92
6.1 JSP實現搜索界麵 92
6.1.1 用於顯示搜索結果的自定義標簽 93
6.1.2 使用Listlib 98
6.1.3 實現翻頁 100
6.2 使用Spring實現的搜索界麵 102
6.2.1 實現REST搜索界麵 102
6.2.2 REST API中的HTTP PUT 104
6.2.3 Spring-data-elasticsearch 106
6.2.4 Spring HATEOAS 112
6.3 實現搜索接口 113
6.3.1 編碼識彆 113
6.3.2 布爾搜索 116
6.3.3 搜索結果排序 116
6.4 實現相似文檔搜索 117
6.5 實現AJAX搜索聯想詞 119
6.5.1 估計查詢詞的文檔頻率 119
6.5.2 搜索聯想詞總體結構 119
6.5.3 服務器端處理 120
6.5.4 瀏覽器端處理 125
6.5.5 拼音提示 127
6.5.6 部署總結 127
6.5.7 Suggester 128
6.6 推薦搜索詞 129
6.6.1 挖掘相關搜索詞 130
6.6.2 使用多綫程計算相關搜索詞 132
6.7 查詢意圖理解 133
6.7.1 拼音搜索 133
6.7.2 無結果處理 133
6.8 集成其他功能 134
6.8.1 拼寫檢查 134
6.8.2 分類統計 135
6.8.3 相關搜索 141
6.8.4 再次查找 144
6.8.5 搜索日誌 144
6.9 查詢分析 146
6.9.1 曆史搜索詞記錄 146
6.9.2 日誌信息過濾 147
6.9.3 信息統計 148
6.9.4 挖掘日誌信息 150
6.9.5 查詢詞意圖分析 150
6.10 部署網站 150
6.10.1 部署到Web服務器 151
6.10.2 防止攻擊 152
6.11 本章小結 156
第7章 OCR文字識彆 157
7.1 Tesseract 157
7.2 使用TensorFlow識彆文字 161
7.3 OpenCV 164
7.3.1 預處理 166
7.3.2 文字區域提取 169
7.3.3 糾正偏斜 171
7.3.4 Linux環境支持 172
7.4 JavaCV 172
7.5 本章小結 174
第8章 問答式搜索 176
8.1 生成錶示語義的代碼 176
8.2 信息整閤 181
8.2.1 實體對齊 181
8.2.2 編輯距離 181
8.2.3 Jaro-Winkler距離 187
8.2.4 比較器 189
8.2.5 Cleaner 189
8.2.6 運行過程 190
8.2.7 遺傳算法調整參數 192
8.3 自動問答 193
8.3.1 問句處理器 193
8.3.2 自動發現答案 198
8.4 本章小結 199
第9章 Elastic係統監控 201
9.1 Logstash 201
9.1.1 使用Logstash 201
9.1.2 插件 203
9.1.3 數據庫輸入插件 206
9.2 Filebeat 207
9.3 消息過期 208
9.4 Kibana 208
9.5 Flume 209
9.6 Kafka 210
9.7 Graylog 211
9.8 物聯網數據 215
9.9 本章小結 216
智慧生物的大規模協作造就瞭驚人的進化奇跡。大規模機器集群造就機器係統進化成為強大的智能係統。Elasticsearch作為大數據與搜索引擎技術的結閤體,隨著社會對大規模開源分布式搜索引擎的需求迅速成長。
由於其良好的易用性,Elasticsearch早在1.0版本之前就加速瞭大規模搜索集群的普及。本書從基本概念開始熟悉Elasticsearch,接下來介紹瞭Elasticsearch在Windows和Linux操作係統下的安裝。除瞭CURL命令,本書還介紹瞭使用常用的編程工具和Elasticsearch搜索服務交互,包括Java、Python、Scala和PHP,以及使用SQL語句查詢Elasticsearch索引的方法。自然語言文本理解往往以插件形式存在於Elasticsearch集群中,第2章介紹瞭如何開發與測試插件。因為Elasticsearch經常用於實時搜索或分析,所以性能優化很重要,第3章介紹瞭如何管理Elasticsearch集群。為瞭更閤理地使用和擴展Elasticsearch,第4章簡單分析瞭github中托管的Elasticsearch源代碼。對於搜索引擎來說,返迴結果的相關性是一個重要的話題,第5章討論瞭這個問題。第6章介紹瞭使用Java開發搜索引擎Web用戶界麵的幾種方法。
隨著人工智能領域技術的發展,讓搜索引擎智能加速變成現實。智能搜索引擎需要能夠檢測到並識彆齣圖像中的文字,第7章介紹瞭結閤OpenCV使用Tesseract識彆文字的方法。第8章介紹瞭根據問題返迴搜索結果的問答式搜索。
目前Elasticsearch是實時係統監控的首選,第9章介紹瞭使用Elasticsearch監控與分析日誌,也介紹瞭通過物聯網監控係統的方案。
本書相關的參考軟件和代碼在讀者QQ群471033528的附件中可以找到。Elasticsearch及其底層依賴的軟件,其復雜程度已經超越瞭一個人所能掌握的程度。一些具體的細節也可以在讀者QQ群中討論。感謝早期閤著者、閤作夥伴、員工、學員、讀者的支持,給我們提供瞭良好的工作基礎。就像玻璃容器中的水培植物一樣,這是一個持久可用的工作基礎。技術的融閤與創新無止境,歡迎讀者一起探索。
本書適閤需要具體實現搜索引擎的程序員使用,對於信息檢索等相關領域的研究人員也有一定的參考價值,同時獵兔搜索技術團隊已經開發齣以本書為基礎的專門培訓課程和商業軟件。
參與本書編寫的還有張子憲、崔智傑、張曉斐、石天盈、張繼紅、張進威、劉宇、何淑琴、任通通、高丹丹、徐友峰、孫寬,在此一並錶示感謝。
這本書真是讓我大開眼界!作為一個對數據處理一直充滿好奇但又缺乏係統性知識的普通讀者,我總覺得海量數據的處理和分析是一個遙不可及的神秘領域。市麵上關於大數據和搜索引擎的書籍,要麼過於晦澀難懂,要麼偏重理論而缺乏實踐指導。《Elasticsearch大數據搜索引擎》這本書,恰恰填補瞭這個空白。它並非僅僅停留在技術堆砌的層麵,而是以一種非常貼近實際應用場景的方式,層層剝繭地揭示瞭 Elasticsearch 的強大之處。我尤其喜歡它在講解概念時,引入瞭大量生動形象的比喻,讓我這個非技術背景的讀者也能快速理解諸如倒排索引、分詞器、聚閤查詢等核心概念。書中的案例也相當實用,從搭建環境到構建復雜的搜索場景,每一步都清晰明瞭,讓我能夠邊學邊練,切實感受到 Elasticsearch 的強大能力。讀完這本書,我對如何高效地檢索、分析和可視化海量數據有瞭全新的認識,也自信瞭不少,覺得大數據分析不再是高高在上的技術,而是觸手可及的工具。
評分這本書的寫作風格非常獨特,它不是那種枯燥的技術手冊,反而更像是一位經驗豐富的老司機在娓娓道來,分享他多年來駕馭 Elasticsearch 的心得體會。作者在書中不僅深入淺齣地講解瞭 Elasticsearch 的技術原理,更重要的是,他結閤瞭大量真實的、甚至是踩過的坑,給讀者提供瞭寶貴的實踐建議。讀到某些章節時,我仿佛能看到作者當年為瞭解決某個棘手問題而熬過的夜,那種真實感和親切感是很多技術書籍所缺乏的。書中對 Elasticsearch 的架構設計、性能優化、集群管理等方麵都有深入的探討,這些內容對於想要構建穩定、高效搜索服務的開發者來說,簡直是無價之寶。而且,作者並沒有止步於 Elasticsearch 本身,還擴展到瞭周邊生態,比如 Kibana 的可視化能力,Logstash 的數據采集能力,這些都讓這本書的內容更加飽滿和全麵。我強烈推薦這本書給任何想要在 Elasticsearch 領域深入發展的人,它不僅能教會你“怎麼做”,更能讓你理解“為什麼這樣做”。
評分作為一名數據分析師,我一直在尋找能夠幫助我更有效地處理和理解大數據集的工具。在接觸到《Elasticsearch大數據搜索引擎》之前,我曾嘗試過多種數據處理方案,但總覺得不夠便捷和高效。這本書的齣現,徹底改變瞭我的工作方式。它讓我瞭解瞭 Elasticsearch 如何作為一個強大的分布式搜索引擎,能夠快速地對海量文本數據進行索引、搜索和分析。書中的很多章節,例如關於數據建模、索引優化以及查詢性能調優的部分,都為我提供瞭非常有價值的指導。我學會瞭如何構建高效的索引結構,如何利用 Elasticsearch 的查詢DSL來構建復雜的搜索條件,以及如何通過聚閤功能來提取數據的洞察。最讓我驚喜的是,這本書還介紹瞭如何將 Elasticsearch 與其他數據可視化工具(如Kibana)結閤使用,從而實現對數據的直觀展示和深入分析。這本書不僅提升瞭我的技術能力,更重要的是,它讓我能夠更從容地應對大數據帶來的挑戰。
評分這本書讓我對“搜索引擎”這個概念有瞭顛覆性的認識。我一直以為搜索引擎隻是一個簡單的關鍵字匹配工具,但讀完這本書我纔明白,它背後蘊含著多麼復雜的算法和精巧的設計。《Elasticsearch大數據搜索引擎》以一種非常平易近人的方式,將 Elasticsearch 的核心技術呈現在讀者麵前。它不僅講解瞭 Elasticsearch 如何存儲和索引海量數據,更重要的是,它揭示瞭 Elasticsearch 如何通過高效的查詢語言、強大的聚閤分析能力,以及靈活的分布式架構,來滿足各種復雜的數據檢索和分析需求。我尤其喜歡書中關於“聚閤”部分的講解,它讓我看到瞭 Elasticsearch 在數據洞察方麵的巨大潛力,可以通過簡單的配置,就能從海量數據中挖掘齣有價值的信息。這本書的優點在於,它能夠同時滿足不同層次讀者的需求:初學者可以從中快速入門,有經驗的開發者則可以從中找到深入優化的方法。
評分我一直對構建高效檢索係統抱有濃厚的興趣,特彆是麵對不斷增長的數據量時,如何確保搜索的快速響應和精準度,對我來說是一個巨大的挑戰。在接觸瞭《Elasticsearch大數據搜索引擎》這本書之後,我纔真正領略到瞭 Elasticsearch 在這方麵的精妙之處。書中的講解邏輯清晰,從基礎的安裝部署,到核心的索引原理,再到復雜的查詢構建,每一步都銜接地非常自然。我特彆欣賞作者在闡述 Lucene 索引機製時,用到的圖示和類比,讓抽象的內部運作變得直觀易懂。而關於搜索算法的介紹,更是讓我對如何優化搜索結果有瞭更深刻的理解。書中關於分詞、評分機製的講解,對提升搜索的相關性至關重要。而且,這本書不僅限於理論,還提供瞭大量實用的代碼示例和配置技巧,讓我能夠立即將學到的知識應用到實際項目中。對於想要構建強大搜索功能,或者已經在使用 Elasticsearch 但希望進一步提升性能的開發者來說,這本書絕對是不可多得的參考資料。
評分這個我要給個差評,不是給書的內容,是給包裝的,書到瞭以後無外封皮包裝,有摺損。
評分希望京東能保持自己的品質,新書就這樣瞭,很不滿意
評分實話實說,書裏的內容是真的爛,40多塊錢不多,就當做善事瞭
評分送貨速度超快,快遞服務態度很好,書也不錯
評分這個我要給個差評,不是給書的內容,是給包裝的,書到瞭以後無外封皮包裝,有摺損。
評分送貨速度超快,快遞服務態度很好,書也不錯
評分這個我要給個差評,不是給書的內容,是給包裝的,書到瞭以後無外封皮包裝,有摺損。
評分極其懷疑這是盜版書
評分沒有想象的那麼好,比較基礎 被名字騙瞭 ?
本站所有內容均為互聯網搜尋引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度,google,bing,sogou 等
© 2025 book.teaonline.club All Rights Reserved. 圖書大百科 版權所有