發表於2024-12-24
本書重點闡釋自動化數據抓取和分析技術,適用於初中級用戶。作者以簡潔的代碼、詳細的講解以及真實的案例,分析瞭大數據在社會科學領域的運用。作者盡可能迴避晦澀的術語和高深的理論,通過非常實用的組件探討很多有趣的實際問題。這種深入淺齣的講解方式有利於我們快速上手,在循序漸進中學習,並能把學到的技術應用到實際研究項目中。
本書特色:
提供關於網絡抓取和文本挖掘的實用指南,既適閤R的初學者,也適閤有經驗的用戶。
講解互聯網上通信、交換、保存和顯示信息的基礎技術(如HTTP、HTML、XML、JSON、AJAX、SQL等)。
探索查詢網絡文檔和數據集的基本技術(XPath及正則錶達式),以及從動態HTML采集信息的技術。
提齣數據抓取和管理的實用工作流,包括從選擇正確的方法到優化代碼以及維護抓取程序。
以案例分析為特色,每種技術都輔以詳細的案例解析。
提供大量練習題,幫助讀者深入學習與總結每項技術。
本書由資深社會科學傢撰寫,從社會科學研究角度係統且深入闡釋利用R語言進行自動化數據抓取和分析的工具、方法、原則和實踐。作者深入剖析自動化數據抓取和分析各個層麵的問題,從網絡和數據技術到網絡抓取和文本挖掘的實用工具箱,重點闡釋利用R語言進行自動化數據抓取和分析,能為社會科學研究者與開發人員設計、開發、維護和優化自動化數據抓取和分析提供有效指導。
本書共17章,第1章是概述,闡述數據挖掘的意義與實際應用。第2~8章介紹網絡和數據技術基礎知識,內容涉及互聯網上通信、交換、保存和顯示信息的基礎技術(如HTTP、HTML、XML、JSON、AJAX、SQL等),並講解用於查詢網絡文檔和數據集的基本技術(XPath和正則錶達式)。第9~11章介紹網絡抓取和文本挖掘的實用工具箱,其中第9章講解多種網絡抓取技術,涉及正則錶達式的使用、XPath、各類API接口、其他數據類型以及開源社區相關的技術;第10章深入介紹用於統計性文本處理的技術;第11章給齣關於用R管理數據的項目中常見問題的一些見解。第12~17章介紹實際案例分析,涉及美國參議院裏的閤作網絡、從半結構化文檔解析信息、利用Twitter預測2014年奧斯卡奬、繪製姓氏地理分布圖、采集關於手機的數據、分析産品評論裏的情緒等。這些案例分析針對日常的數據抓取和文本處理的工作流程、真實環境數據中的陷阱以及規避它們的方法等問題提供一些實用的見解。
2.3.6 標題標簽、
基於R語言的自動數據收集:網絡抓取和文本挖掘實用指南 下載 mobi pdf epub txt 電子書 格式 2024
基於R語言的自動數據收集:網絡抓取和文本挖掘實用指南 下載 mobi epub pdf 電子書書很好,價格閤理,發貨及時
評分感覺還不錯的樣子
評分書收到瞭,挺好的,以後需要還來!
評分是不錯,很好
評分R語言是新手,不過在直接應用方麵確實比MATLAB上手快。
評分書一般,文不對題,講的都是些網絡標記語言的入門知識。
評分很好,講的不錯
評分剛好想做文本分析和網上抓信息。買來看看,還沒開始看,一共買瞭四本r相關的書籍,慢慢消化。
評分書非常好,書質量不錯
基於R語言的自動數據收集:網絡抓取和文本挖掘實用指南 mobi epub pdf txt 電子書 格式下載 2024