Elasticsearch大數據搜索引擎

Elasticsearch大數據搜索引擎 下載 mobi epub pdf 電子書 2025

羅剛 著
圖書標籤:
  • Elasticsearch
  • 大數據
  • 搜索引擎
  • 全文檢索
  • 分布式
  • NoSQL
  • 數據分析
  • 實時搜索
  • Lucene
  • 開發
  • 運維
想要找書就要到 圖書大百科
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!
齣版社: 電子工業齣版社
ISBN:9787121332333
版次:1
商品編碼:12291852
包裝:平裝
叢書名: 人工智能係列
開本:16開
齣版時間:2018-01-01
用紙:膠版紙
頁數:228
字數:364800
正文語種:中文

具體描述

內容簡介

Elasticsearch搜索集群係統在生産和生活中發揮著越來越重要的作用。本書介紹瞭Elasticsearch的使用、原理、係統優化與擴展應用。本書用例子說明瞭Java、Python、Scala和PHP的編程API,其中在Java搜索界麵實現上,介紹瞭使用Spring實現微服務開發。為瞭擴展Elasticsearch的功能,本書以中文分詞和英文文本分析為例介紹瞭插件開發方法。本書介紹瞭使用Elasticsearch作為數據管理平颱的日誌監控與分析方法,介紹瞭使用OCR從圖像中提取文本以及問答式搜索的開發方法。

作者簡介

獵兔搜索技術創始人曾經擔任國防大學科研處 技術顧問工信部 輿情開發顧問東南大學 社會導師首都師範大學 金融課程講師北京石油化工學院 社會導師北大光華管理學院 技術顧問藍汛公司搜索集群技術谘詢顧問新東方 創新研究院 研究員

目錄

第1章 使用Elasticsearch 1
1.1 基本概念 1
1.2 安裝 2
1.3 搜索集群 5
1.4 創建索引 6
1.5 使用Java客戶端接口 9
1.5.1 創建索引 11
1.5.2 增加、刪除與修改數據 14
1.5.3 分析器 16
1.5.4 數據導入 17
1.5.5 通過攝取快速導入數據 17
1.5.6 索引庫結構 17
1.5.7 查詢 18
1.5.8 區間查詢 22
1.5.9 排序 23
1.5.10 分布式搜索 23
1.5.11 過濾器 24
1.5.12 高亮顯示 24
1.5.13 分頁 25
1.5.14 通過聚閤實現分組查詢 26
1.5.15 文本列的聚閤 27
1.5.16 遍曆數據 28
1.5.17 索引文檔 29
1.5.18 Percolate 29
1.6 RESTClient 30
1.6.1 使用攝取 31
1.6.2 代碼實現攝取 33
1.7 使用Jest 33
1.8 Python客戶端 37
1.9 Scala客戶端 40
1.10 PHP客戶端 43
1.11 SQL支持 44
1.12 本章小結 48
第2章 開發插件 49
2.1 搜索中文 49
2.1.1 中文分詞原理 49
2.1.2 中文分詞插件原理 51
2.1.3 開發中文分詞插件 53
2.1.4 中文AnalyzerProvider 55
2.1.5 字詞混閤索引 57
2.2 搜索英文 60
2.2.1 句子切分 60
2.2.2 標注詞性 62
2.3 使用測試套件 64
2.4 本章小結 68
第3章 管理搜索集群 69
3.1 節點類型 69
3.2 管理集群 69
3.3 寫入權限控製 70
3.4 使用X-Pack 71
3.5 快照 72
3.6 Zen發現機製 73
3.7 聯閤搜索 74
3.8 緩存 74
3.9 本章小結 75
第4章 源碼分析 76
4.1 Lucene源碼分析 76
4.1.1 Ivy管理依賴項 76
4.1.2 源碼結構介紹 76
4.2 Gradle 77
4.3 Guice 77
4.4 Joda-Time 79
4.5 Transport 80
4.6 綫程池 80
4.7 模塊 80
4.8 Netty 81
4.9 分布式 81
4.10 本章小結 82
第5章 搜索相關性 83
5.1 BM25檢索模型 83
5.1.1 使用BM25檢索模型 86
5.1.2 參數調優 86
5.2 學習評分 86
5.2.1 基本原理 87
5.2.2 準備數據 87
5.2.3 Elasticsearch學習排名 89
5.3 本章小結 91
第6章 搜索引擎用戶界麵 92
6.1 JSP實現搜索界麵 92
6.1.1 用於顯示搜索結果的自定義標簽 93
6.1.2 使用Listlib 98
6.1.3 實現翻頁 100
6.2 使用Spring實現的搜索界麵 102
6.2.1 實現REST搜索界麵 102
6.2.2 REST API中的HTTP PUT 104
6.2.3 Spring-data-elasticsearch 106
6.2.4 Spring HATEOAS 112
6.3 實現搜索接口 113
6.3.1 編碼識彆 113
6.3.2 布爾搜索 116
6.3.3 搜索結果排序 116
6.4 實現相似文檔搜索 117
6.5 實現AJAX搜索聯想詞 119
6.5.1 估計查詢詞的文檔頻率 119
6.5.2 搜索聯想詞總體結構 119
6.5.3 服務器端處理 120
6.5.4 瀏覽器端處理 125
6.5.5 拼音提示 127
6.5.6 部署總結 127
6.5.7 Suggester 128
6.6 推薦搜索詞 129
6.6.1 挖掘相關搜索詞 130
6.6.2 使用多綫程計算相關搜索詞 132
6.7 查詢意圖理解 133
6.7.1 拼音搜索 133
6.7.2 無結果處理 133
6.8 集成其他功能 134
6.8.1 拼寫檢查 134
6.8.2 分類統計 135
6.8.3 相關搜索 141
6.8.4 再次查找 144
6.8.5 搜索日誌 144
6.9 查詢分析 146
6.9.1 曆史搜索詞記錄 146
6.9.2 日誌信息過濾 147
6.9.3 信息統計 148
6.9.4 挖掘日誌信息 150
6.9.5 查詢詞意圖分析 150
6.10 部署網站 150
6.10.1 部署到Web服務器 151
6.10.2 防止攻擊 152
6.11 本章小結 156
第7章 OCR文字識彆 157
7.1 Tesseract 157
7.2 使用TensorFlow識彆文字 161
7.3 OpenCV 164
7.3.1 預處理 166
7.3.2 文字區域提取 169
7.3.3 糾正偏斜 171
7.3.4 Linux環境支持 172
7.4 JavaCV 172
7.5 本章小結 174
第8章 問答式搜索 176
8.1 生成錶示語義的代碼 176
8.2 信息整閤 181
8.2.1 實體對齊 181
8.2.2 編輯距離 181
8.2.3 Jaro-Winkler距離 187
8.2.4 比較器 189
8.2.5 Cleaner 189
8.2.6 運行過程 190
8.2.7 遺傳算法調整參數 192
8.3 自動問答 193
8.3.1 問句處理器 193
8.3.2 自動發現答案 198
8.4 本章小結 199
第9章 Elastic係統監控 201
9.1 Logstash 201
9.1.1 使用Logstash 201
9.1.2 插件 203
9.1.3 數據庫輸入插件 206
9.2 Filebeat 207
9.3 消息過期 208
9.4 Kibana 208
9.5 Flume 209
9.6 Kafka 210
9.7 Graylog 211
9.8 物聯網數據 215
9.9 本章小結 216

前言/序言

智慧生物的大規模協作造就瞭驚人的進化奇跡。大規模機器集群造就機器係統進化成為強大的智能係統。Elasticsearch作為大數據與搜索引擎技術的結閤體,隨著社會對大規模開源分布式搜索引擎的需求迅速成長。

由於其良好的易用性,Elasticsearch早在1.0版本之前就加速瞭大規模搜索集群的普及。本書從基本概念開始熟悉Elasticsearch,接下來介紹瞭Elasticsearch在Windows和Linux操作係統下的安裝。除瞭CURL命令,本書還介紹瞭使用常用的編程工具和Elasticsearch搜索服務交互,包括Java、Python、Scala和PHP,以及使用SQL語句查詢Elasticsearch索引的方法。自然語言文本理解往往以插件形式存在於Elasticsearch集群中,第2章介紹瞭如何開發與測試插件。因為Elasticsearch經常用於實時搜索或分析,所以性能優化很重要,第3章介紹瞭如何管理Elasticsearch集群。為瞭更閤理地使用和擴展Elasticsearch,第4章簡單分析瞭github中托管的Elasticsearch源代碼。對於搜索引擎來說,返迴結果的相關性是一個重要的話題,第5章討論瞭這個問題。第6章介紹瞭使用Java開發搜索引擎Web用戶界麵的幾種方法。

隨著人工智能領域技術的發展,讓搜索引擎智能加速變成現實。智能搜索引擎需要能夠檢測到並識彆齣圖像中的文字,第7章介紹瞭結閤OpenCV使用Tesseract識彆文字的方法。第8章介紹瞭根據問題返迴搜索結果的問答式搜索。

目前Elasticsearch是實時係統監控的首選,第9章介紹瞭使用Elasticsearch監控與分析日誌,也介紹瞭通過物聯網監控係統的方案。

本書相關的參考軟件和代碼在讀者QQ群471033528的附件中可以找到。Elasticsearch及其底層依賴的軟件,其復雜程度已經超越瞭一個人所能掌握的程度。一些具體的細節也可以在讀者QQ群中討論。感謝早期閤著者、閤作夥伴、員工、學員、讀者的支持,給我們提供瞭良好的工作基礎。就像玻璃容器中的水培植物一樣,這是一個持久可用的工作基礎。技術的融閤與創新無止境,歡迎讀者一起探索。

本書適閤需要具體實現搜索引擎的程序員使用,對於信息檢索等相關領域的研究人員也有一定的參考價值,同時獵兔搜索技術團隊已經開發齣以本書為基礎的專門培訓課程和商業軟件。

參與本書編寫的還有張子憲、崔智傑、張曉斐、石天盈、張繼紅、張進威、劉宇、何淑琴、任通通、高丹丹、徐友峰、孫寬,在此一並錶示感謝。



《洞察海量:數據驅動的業務升級之道》 簡介: 在這個數據洪流席捲而來的時代,企業如同置身於汪洋大海之中,海量數據的價值如同深藏的寶藏,等待著被發掘。然而,如何有效、高效地駕馭這些數據,從中提煉齣決策的智慧,驅動業務的持續增長,已成為擺在每一個企業麵前的嚴峻挑戰。《洞察海量:數據驅動的業務升級之道》並非一本技術手冊,而是一部關於如何將數據轉化為戰略資産的深度解析。本書聚焦於企業如何構建強大的數據洞察能力,並將其轉化為切實可見的業務價值,最終實現全方位的業務升級。 本書旨在為不同規模、不同行業的企業決策者、管理者以及數據應用相關從業者提供一套係統性的思維框架和實踐指南。它將帶領讀者穿越數據的迷霧,揭示數據背後的商業邏輯,教授如何從海量數據中識彆趨勢、發現機會、規避風險,從而在激烈的市場競爭中立於不敗之地。 核心內容深度解析: 第一部分:數據驅動的戰略轉型——從“擁有”數據到“用好”數據 數據時代的戰略重塑: 傳統企業戰略往往基於經驗和市場調研,但在數據驅動時代,戰略的製定和調整必須以數據為核心。本部分將探討如何打破思維定勢,將數據分析能力融入企業戰略規劃的每一個環節。我們將深入分析數據驅動戰略的本質,以及它如何改變企業的産品開發、市場營銷、客戶服務、運營管理等核心業務流程。 價值導嚮的數據采集與治理: 並非所有數據都具有同等價值。本書將強調數據采集的“目的性”和“價值性”,指導讀者如何識彆對業務目標最有價值的數據源,並建立高效、規範的數據采集機製。同時,我們將重點闡述數據治理的重要性,包括數據質量管理、元數據管理、數據安全與隱私保護等,確保數據的準確性、一緻性和可用性,為後續分析奠定堅實基礎。 構建企業級數據洞察能力: 數據洞察並非簡單的報錶生成。本部分將深入剖析構建企業級數據洞察能力的關鍵要素,包括: 明確業務痛點與目標: 如何將模糊的業務需求轉化為具體的數據分析問題。 選擇閤適的分析方法與工具: 介紹不同類型的數據分析方法(如描述性分析、診斷性分析、預測性分析、規範性分析)及其適用場景,並引導讀者理解不同分析工具的定位,而非被具體的技術細節所睏擾。 打造跨部門的數據協作文化: 數據價值的實現離不開各個部門的協同。我們將探討如何打破部門壁壘,促進業務人員和技術人員之間的有效溝通,共同挖掘數據價值。 從洞察到行動——決策閉環的構建: 數據洞察的最終目的是驅動決策和行動。本部分將重點講解如何將數據分析結果轉化為可執行的商業策略,並建立有效的決策反饋機製,通過持續的監測和調整,形成數據驅動的業務增長閉環。 第二部分:賦能業務場景——數據驅動的實戰應用 本部分將通過一係列詳實的案例分析,深入探討數據驅動在企業各個核心業務場景中的具體應用,展示數據如何轉化為實實在在的業務增長引擎。 智能營銷與客戶360度畫像: 精準營銷的藝術: 如何利用用戶行為數據、交易數據、社交數據等,構建精準的用戶畫像,實現韆人韆麵的個性化營銷。 客戶生命周期管理: 如何通過數據分析,識彆高價值客戶,預測客戶流失風險,並製定針對性的客戶挽留策略。 營銷渠道優化: 如何量化不同營銷渠道的效果,優化預算分配,提升營銷投資迴報率。 卓越運營與效率提升: 供應鏈與物流優化: 如何通過需求預測、庫存優化、路徑規劃等,降低運營成本,提高交付效率。 生産製造的智能化: 如何利用傳感器數據、生産過程數據,實現設備故障預測、生産流程優化,提高産品質量和生産效率。 風險預警與閤規管理: 如何通過數據監控,及時發現潛在的運營風險、財務風險、閤規風險,並采取預防措施。 産品創新與用戶體驗升級: 用戶行為洞察: 如何通過用戶在産品中的行為數據,深入理解用戶需求和偏好,指導産品功能設計和迭代。 A/B測試與産品優化: 如何科學地設計和實施A/B測試,量化不同産品方案的效果,實現用戶體驗的持續優化。 市場趨勢預測與産品布局: 如何分析宏觀經濟數據、行業趨勢數據,捕捉新興市場機會,指導産品戰略布局。 財務分析與風險控製: 精細化財務報錶分析: 如何超越傳統財務報錶,通過多維度數據分析,揭示企業經營狀況的深層原因。 欺詐檢測與反洗錢: 如何利用數據分析技術,識彆異常交易模式,有效防範金融欺詐和洗錢行為。 投資決策支持: 如何通過數據分析,評估投資項目的風險與迴報,為投資決策提供科學依據。 第三部分:數據驅動的組織與文化重塑 構建數據驅動的組織架構: 如何根據企業的規模和發展階段,設計閤理的數據團隊架構,明確角色職責,提升團隊協作效率。 培養數據素養與人纔發展: 如何通過培訓、賦能,提升全員的數據意識和數據應用能力,打造一支懂數據、會用數據的團隊。 領導者的角色與思維轉變: 數據驅動的轉型離不開領導者的堅定支持和思維轉變。本部分將強調領導者在推動數據文化建設中的關鍵作用,以及如何以身作則,引領企業擁抱數據。 應對挑戰與持續演進: 數據驅動的道路並非一帆風順。本書將探討在數據驅動轉型過程中可能遇到的挑戰,如技術選型、數據安全、組織變革阻力等,並提供應對策略,指導企業如何在不斷變化的環境中持續演進,保持領先地位。 本書特色: 宏觀戰略與微觀實踐相結閤: 既有對數據驅動戰略的宏觀解讀,也包含具體業務場景的實戰應用。 強調思維框架而非技術細節: 側重於數據思維的培養和商業邏輯的梳理,避免陷入純粹的技術討論。 豐富的案例分析: 結閤實際商業案例,深入淺齣地展示數據驅動的價值和方法。 麵嚮決策者和業務人員: 語言通俗易懂,旨在幫助企業管理者和業務人員理解並應用數據驅動理念。 《洞察海量:數據驅動的業務升級之道》是一本為追求卓越、渴望突破的企業量身打造的指南。它將幫助您解鎖數據蘊藏的巨大能量,將數據轉化為驅動業務持續增長的強大引擎,最終實現企業在數字時代的華麗轉身與全麵升級。無論您是身處快速變化的行業,還是希望在傳統領域尋求新的突破,本書都將為您提供寶貴的洞見與實用的指引。

用戶評價

評分

這本書真是讓我大開眼界!作為一個對數據處理一直充滿好奇但又缺乏係統性知識的普通讀者,我總覺得海量數據的處理和分析是一個遙不可及的神秘領域。市麵上關於大數據和搜索引擎的書籍,要麼過於晦澀難懂,要麼偏重理論而缺乏實踐指導。《Elasticsearch大數據搜索引擎》這本書,恰恰填補瞭這個空白。它並非僅僅停留在技術堆砌的層麵,而是以一種非常貼近實際應用場景的方式,層層剝繭地揭示瞭 Elasticsearch 的強大之處。我尤其喜歡它在講解概念時,引入瞭大量生動形象的比喻,讓我這個非技術背景的讀者也能快速理解諸如倒排索引、分詞器、聚閤查詢等核心概念。書中的案例也相當實用,從搭建環境到構建復雜的搜索場景,每一步都清晰明瞭,讓我能夠邊學邊練,切實感受到 Elasticsearch 的強大能力。讀完這本書,我對如何高效地檢索、分析和可視化海量數據有瞭全新的認識,也自信瞭不少,覺得大數據分析不再是高高在上的技術,而是觸手可及的工具。

評分

這本書的寫作風格非常獨特,它不是那種枯燥的技術手冊,反而更像是一位經驗豐富的老司機在娓娓道來,分享他多年來駕馭 Elasticsearch 的心得體會。作者在書中不僅深入淺齣地講解瞭 Elasticsearch 的技術原理,更重要的是,他結閤瞭大量真實的、甚至是踩過的坑,給讀者提供瞭寶貴的實踐建議。讀到某些章節時,我仿佛能看到作者當年為瞭解決某個棘手問題而熬過的夜,那種真實感和親切感是很多技術書籍所缺乏的。書中對 Elasticsearch 的架構設計、性能優化、集群管理等方麵都有深入的探討,這些內容對於想要構建穩定、高效搜索服務的開發者來說,簡直是無價之寶。而且,作者並沒有止步於 Elasticsearch 本身,還擴展到瞭周邊生態,比如 Kibana 的可視化能力,Logstash 的數據采集能力,這些都讓這本書的內容更加飽滿和全麵。我強烈推薦這本書給任何想要在 Elasticsearch 領域深入發展的人,它不僅能教會你“怎麼做”,更能讓你理解“為什麼這樣做”。

評分

作為一名數據分析師,我一直在尋找能夠幫助我更有效地處理和理解大數據集的工具。在接觸到《Elasticsearch大數據搜索引擎》之前,我曾嘗試過多種數據處理方案,但總覺得不夠便捷和高效。這本書的齣現,徹底改變瞭我的工作方式。它讓我瞭解瞭 Elasticsearch 如何作為一個強大的分布式搜索引擎,能夠快速地對海量文本數據進行索引、搜索和分析。書中的很多章節,例如關於數據建模、索引優化以及查詢性能調優的部分,都為我提供瞭非常有價值的指導。我學會瞭如何構建高效的索引結構,如何利用 Elasticsearch 的查詢DSL來構建復雜的搜索條件,以及如何通過聚閤功能來提取數據的洞察。最讓我驚喜的是,這本書還介紹瞭如何將 Elasticsearch 與其他數據可視化工具(如Kibana)結閤使用,從而實現對數據的直觀展示和深入分析。這本書不僅提升瞭我的技術能力,更重要的是,它讓我能夠更從容地應對大數據帶來的挑戰。

評分

這本書讓我對“搜索引擎”這個概念有瞭顛覆性的認識。我一直以為搜索引擎隻是一個簡單的關鍵字匹配工具,但讀完這本書我纔明白,它背後蘊含著多麼復雜的算法和精巧的設計。《Elasticsearch大數據搜索引擎》以一種非常平易近人的方式,將 Elasticsearch 的核心技術呈現在讀者麵前。它不僅講解瞭 Elasticsearch 如何存儲和索引海量數據,更重要的是,它揭示瞭 Elasticsearch 如何通過高效的查詢語言、強大的聚閤分析能力,以及靈活的分布式架構,來滿足各種復雜的數據檢索和分析需求。我尤其喜歡書中關於“聚閤”部分的講解,它讓我看到瞭 Elasticsearch 在數據洞察方麵的巨大潛力,可以通過簡單的配置,就能從海量數據中挖掘齣有價值的信息。這本書的優點在於,它能夠同時滿足不同層次讀者的需求:初學者可以從中快速入門,有經驗的開發者則可以從中找到深入優化的方法。

評分

我一直對構建高效檢索係統抱有濃厚的興趣,特彆是麵對不斷增長的數據量時,如何確保搜索的快速響應和精準度,對我來說是一個巨大的挑戰。在接觸瞭《Elasticsearch大數據搜索引擎》這本書之後,我纔真正領略到瞭 Elasticsearch 在這方麵的精妙之處。書中的講解邏輯清晰,從基礎的安裝部署,到核心的索引原理,再到復雜的查詢構建,每一步都銜接地非常自然。我特彆欣賞作者在闡述 Lucene 索引機製時,用到的圖示和類比,讓抽象的內部運作變得直觀易懂。而關於搜索算法的介紹,更是讓我對如何優化搜索結果有瞭更深刻的理解。書中關於分詞、評分機製的講解,對提升搜索的相關性至關重要。而且,這本書不僅限於理論,還提供瞭大量實用的代碼示例和配置技巧,讓我能夠立即將學到的知識應用到實際項目中。對於想要構建強大搜索功能,或者已經在使用 Elasticsearch 但希望進一步提升性能的開發者來說,這本書絕對是不可多得的參考資料。

評分

這個我要給個差評,不是給書的內容,是給包裝的,書到瞭以後無外封皮包裝,有摺損。

評分

希望京東能保持自己的品質,新書就這樣瞭,很不滿意

評分

實話實說,書裏的內容是真的爛,40多塊錢不多,就當做善事瞭

評分

送貨速度超快,快遞服務態度很好,書也不錯

評分

這個我要給個差評,不是給書的內容,是給包裝的,書到瞭以後無外封皮包裝,有摺損。

評分

送貨速度超快,快遞服務態度很好,書也不錯

評分

這個我要給個差評,不是給書的內容,是給包裝的,書到瞭以後無外封皮包裝,有摺損。

評分

極其懷疑這是盜版書

評分

沒有想象的那麼好,比較基礎 被名字騙瞭 ?

相關圖書

本站所有內容均為互聯網搜尋引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度google,bing,sogou

© 2025 book.teaonline.club All Rights Reserved. 圖書大百科 版權所有