發表於2024-11-17
關聯模闆【結束】節點,請勿手動操作節點內的內容!!!
基本信息
書名:搜索引擎——原理、技術與係統
原價:48.00元
作者:李曉明、閆宏飛、王繼民
齣版社:科學齣版社
齣版日期:2012-05-01
ISBN:9787030342584
字數:472750
頁碼:330
版次:1
裝幀:平裝
開本:16開
目錄
目錄
第二版前言
版前言
章 引論
節 搜索引擎的概念
第二節 搜索引擎的發展曆史
第三節 一些著名的搜索引擎
第四節 小結
上篇 Web搜索引擎基本原理和技術
第二章 Web搜索引擎工作原理和體係結構
節 基本要求
第二節 網頁搜集
第三節 預處理
第四節 查詢服務
第五節 體係結構
第六節 小結
第三章 Web信息的搜集
節 概述
一、超文本傳輸協議
二、一個小型搜索引擎係統
第二節 網頁搜集
一、定義URL類和Page類
二、與服務器建立連接
三、發送請求和接收數據
四、網頁信息存儲的天網格式
第三節 多道搜集程序並行工作
一、多綫程並發工作
二、控製對一個站點並發搜集綫程的數目
第四節 如何避免網頁的重復搜集
一、記錄未訪問、已訪問URL和網頁內容摘要信息
二、域名與IP的對應問題
第五節 搜集信息的類型
第六節 小結
第四章 對搜集信息的預處理
節 索引網頁庫
第二節 網頁編碼識彆
一、基本而重要的概念
二、常用字符編碼
三、常用字符編碼算法
四、字符的輸入和顯示
五、編碼識彆
第三節 中文自動分詞
第四節 分析網頁和建立倒排文件
第五節 小結
第五章 信息查詢服務
節 檢索的定義
第二節 查詢服務的實現
一、結果集閤的形成
二、查詢結果顯示
第三節 小結
中篇 對質量和性能的追求
第六章 可擴展搜集子係統
節 天網係統概述和集中式搜集係統結構
一、天網係統結構
二、集中式搜集係統
第二節 利用並行處理技術高效搜集網頁的一種方案
一、節點間URL的劃分策略
二、關於性能的討論
三、性能測試和評價
四、係統的動態可配置性設計
第三節 天網分布式搜集係統
第四節 對Deep Web的認識
一、Deep Web的成因
二、搜索Deep Web的方法
第五節 小結
第七章 網頁淨化與消重
節 網頁淨化與元數據提取
一、DocView模型
二、網頁的錶示
三、提取DocView模型要素的方法
四、模型應用及實驗研究
第二節 網頁消重算法
一、消重算法
二、算法評測
第三節 小結
第八章 高性能檢索子係統
節 檢索係統基本技術
一、係統設計與結構
二、索引創建
三、檢索過程
第二節 適於查詢的網頁索引結構
一、倒排索引結構
二、平麵位置索引
第三節 倒排索引壓縮
一、倒排索引壓縮技術
二、詞典與倒排錶的壓縮
第四節 索引剪枝
一、靜態索引剪枝方法
二、動態索引剪枝方法
第五節 混閤索引技術
一、混閤索引的原理
二、混閤索引的實現
第六節 倒排文件緩存機製
一、倒排文件緩存
二、負載特性
三、緩存策略的選擇
第七節 小結
第九章 相關排序與係統質量評估
節 傳統IR的相關排序技術
第二節 鏈接分析與相關排序
一、鏈接分析
二、Web查詢模式下的新信息
第三節 相關排序的一種實現方案
一、形成網頁中詞項的基本權重
二、利用鏈接的結構
三、收集用戶反饋信息
四、計算終的權重
第四節 信息檢索技術評估
一、信息檢索技術評估指標
二、TREC和CWIRF信息檢索評估
三、搜索引擎技術評估
第五節 小結
下篇 Web信息資源的組織與應用服務
第十章 大規模Web曆史網頁倉儲係統的構建
節 國外Web曆史網頁保存現狀
一、Internet Archive
二、PANDORA
三、其他相關Web保存項目
第二節 中國Web信息博物館的係統設計
正版 搜索引擎 原理技術與係統 研究生或高年級科生教學參考書技術資料 提供大量源代碼 提高 下載 mobi epub pdf txt 電子書 格式
正版 搜索引擎 原理技術與係統 研究生或高年級科生教學參考書技術資料 提供大量源代碼 提高 下載 mobi pdf epub txt 電子書 格式 2024
正版 搜索引擎 原理技術與係統 研究生或高年級科生教學參考書技術資料 提供大量源代碼 提高 下載 mobi epub pdf 電子書正版 搜索引擎 原理技術與係統 研究生或高年級科生教學參考書技術資料 提供大量源代碼 提高 mobi epub pdf txt 電子書 格式下載 2024