發表於2024-12-26
Python網絡數據爬取及分析從入門到精通(爬取篇)
這是一套以實例為主、使用Python語言講解網絡數據爬蟲及分析的實戰指南。本套書通俗易懂,涵蓋瞭Python基礎知識、數據爬取、數據分析、數據預處理、數據可視化、數據存儲、算法評估等多方麵知識,每一部分知識都從安裝過程、導入擴展包到算法原理、基礎語法,再結閤實例進行詳細講解。
本套書包括兩本:《Python網絡數據爬取及分析從入門到精通(爬取篇)》和《Python網絡數據爬取及分析從入門到精通(分析篇)》。
看完此書,真正讓你做到從入門到精通。
Python網絡數據爬取及分析從入門到精通(爬取篇)
本書采用通俗易懂的語言、豐富多彩的實例,詳細介紹瞭使用Python語言進行網絡數據爬取的知識,主要內容包括Python語法、正則錶達式、BeautifulSoup技術、Selenium技術、Scrapy框架、數據庫存儲等,同時詳細介紹瞭爬取網站和博客內容、電影數據信息、招聘信息、在綫百科知識、微博內容、農産品信息等實例。
書中所有知識點都結閤經典實例進行介紹,涉及的實例都給齣瞭詳細的分析流程,程序代碼都給齣瞭具體的注釋,同時采用圖文結閤的形式講解,讓讀者能更加輕鬆地領會Python網絡數據爬蟲的精髓,並快速提高自己的開發能力。
本書即可作為Python開發入門者的自學用書,也可作為高等院校數據爬取、數據分析、數據挖掘、大數據等相關專業的教學參考書或實驗指導書,還可供Python開發人員查閱、參考。
楊秀璋,畢業於北京理工大學軟件學院,長期從事Web數據挖掘、Python數據分析、網絡數據爬取工作及研究。他現任教於貴州財經大學信息學院,主講“數據挖掘與分析”“大數據技術及應用”課程,並從事大數據分析、數據挖掘、知識圖譜等領域的項目研究與開發;有多年的Python編程、數據分析及知識圖譜研究經驗,實戰經驗較為豐富。
此外,他還積極分享編程知識和開源代碼編寫經驗,先後在CSDN、博客園、阿裏雲棲社區撰寫博客,僅在CSDN就分享瞭300多篇原創文章,開設瞭11個專欄,纍計閱讀量超過250萬人次。
第1章 網絡數據爬取概述…………………………………………………………… 1
1.1 網絡爬蟲 ……………………………………………………………………… 1
1.2 相關技術 ……………………………………………………………………… 3
1.2.1 HTTP …………………………………………………………………… 3
1.2.2 HTML…………………………………………………………………… 3
1.2.3 Python …………………………………………………………………… 5
1.3 本章小結 ……………………………………………………………………… 5
參考文獻……………………………………………………………………………… 5
第2章 Python知識初學 …………………………………………………………… 6
2.1 Python簡介 …………………………………………………………………… 6
2.2 基礎語法……………………………………………………………………… 11
2.2.1 縮進與注釋……………………………………………………………… 11
2.2.2 變量與常量……………………………………………………………… 12
2.2.3 輸入與輸齣……………………………………………………………… 14
2.2.4 賦值與錶達式…………………………………………………………… 16
2.3 數據類型……………………………………………………………………… 16
2.3.1 數字類型………………………………………………………………… 16
2.3.2 字符串類型……………………………………………………………… 17
2.3.3 列錶類型………………………………………………………………… 17
2.3.4 元組類型………………………………………………………………… 19
2.3.5 字典類型………………………………………………………………… 19
2.4 條件語句……………………………………………………………………… 19
2.4.1 單分支…………………………………………………………………… 20
2.4.2 二分支…………………………………………………………………… 20
2.4.3 多分支…………………………………………………………………… 21
2.5 循環語句……………………………………………………………………… 22
2.5.1 while循環 ……………………………………………………………… 22
2.5.2 for循環 ………………………………………………………………… 24
2.5.3 break和continue語句 ………………………………………………… 24
2.6 函 數………………………………………………………………………… 25
2.6.1 自定義函數……………………………………………………………… 26
2.6.2 常見內部庫函數………………………………………………………… 27
2.6.3 第三方庫函數…………………………………………………………… 29
2.7 字符串操作…………………………………………………………………… 30
2.8 文件操作……………………………………………………………………… 32
2.8.1 打開文件………………………………………………………………… 32
2.8.2 讀/寫文件 ……………………………………………………………… 32
2.8.3 關閉文件………………………………………………………………… 33
2.8.4 循環遍曆文件…………………………………………………………… 34
2.9 麵嚮對象……………………………………………………………………… 34
2.10 本章小結 …………………………………………………………………… 36
參考文獻 …………………………………………………………………………… 36
第3章 正則錶達式爬蟲之牛刀小試 ……………………………………………… 37
3.1 正則錶達式…………………………………………………………………… 37
3.2 Python網絡數據爬取的常用模塊 ………………………………………… 39
3.2.1 urllib模塊 ……………………………………………………………… 39
3.2.2 urlparse模塊 …………………………………………………………… 42
3.2.3 requests模塊 …………………………………………………………… 44
3.3 正則錶達式爬取網絡數據的常見方法……………………………………… 45
3.3.1 爬取標簽間的內容……………………………………………………… 45
3.3.2 爬取標簽中的參數……………………………………………………… 49
3.3.3 字符串處理及替換……………………………………………………… 50
3.4 個人博客爬取實例…………………………………………………………… 52
3.4.1 分析過程………………………………………………………………… 52
3.4.2 代碼實現………………………………………………………………… 57
3.5 本章小結……………………………………………………………………… 59
參考文獻 …………………………………………………………………………… 59
第4章 BeautifulSoup技術 ………………………………………………………… 60
4.1 安裝BeautifulSoup ………………………………………………………… 60
4.1.1 Python 2.7安裝BeautifulSoup ……………………………………… 60
4.1.2 pip安裝擴展庫 ………………………………………………………… 63
4.2 快速開始BeautifulSoup解析 ……………………………………………… 67
4.2.1 BeautifulSoup解析 HTML …………………………………………… 68
4.2.2 簡單獲取網頁標簽信息………………………………………………… 71
4.2.3 定位標簽並獲取內容…………………………………………………… 72
4.3 深入瞭解BeautifulSoup …………………………………………………… 73
4.3.1 BeautifulSoup對象 …………………………………………………… 74
4.3.2 遍曆文檔樹……………………………………………………………… 79
4.3.3 搜索文檔樹……………………………………………………………… 82
4.4 BeautifulSoup簡單爬取個人博客網站 …………………………………… 84
4.5 本章小結……………………………………………………………………… 87
參考文獻 …………………………………………………………………………… 87
第5章 BeautifulSoup爬取電影信息 ……………………………………………… 88
5.1 分析網頁DOM 樹結構……………………………………………………… 88
5.1.1 分析網頁結構及簡單爬取……………………………………………… 88
5.1.2 定位節點及網頁翻頁分析……………………………………………… 91
5.2 爬取豆瓣電影信息…………………………………………………………… 94
5.3 鏈接跳轉分析及詳情頁麵爬取……………………………………………… 98
5.4 本章小結 …………………………………………………………………… 104
參考文獻…………………………………………………………………………… 104
第6章 Python數據庫知識 ……………………………………………………… 105
6.1 MySQL數據庫 …………………………………………………………… 105
6.1.1 MySQL的安裝與配置 ……………………………………………… 105
6.1.2 SQL基礎語句詳解 …………………………………………………… 112
6.2 Python操作 MySQL數據庫 ……………………………………………… 119
6.2.1 安裝 MySQL擴展庫 ………………………………………………… 119
6.2.2 程序接口DB-API …………………………………………………… 121
6.2.3 Python調用 MySQLdb擴展庫 ……………………………………… 122
6.3 Python操作SQLite 3數__________據庫 …………………………………………… 126
6.4 本章小結 …………………………………………………………………… 129
參考文獻…………………………………………………………………………… 129
第7章 基於數據庫存儲的BeautifulSoup招聘爬蟲 …………………………… 130
7.1 知識圖譜和智聯招聘 ……………………………………………………… 130
7.2 BeautifulSoup爬取招聘信息 ……………………………………………… 132
7.2.1 分析網頁超鏈接及跳轉處理 ………………………………………… 132
7.2.2 DOM 樹節點分析及網頁爬取 ……………………………………… 135
7.3 Navicat for MySQL工具操作數據庫 …………………………………… 137
7.3.1 連接數據庫 …………………………………………………………… 137
7.3.2 創建數據庫 …………………………………………………………… 139
7.3.3 創建錶 ………………………………………………………………… 141
7.3.4 數據庫增刪改查操作 ………………………………………………… 143
7.4 MySQL數據庫存儲招聘信息 …………………………………………… 146
7.4.1 MySQL操作數據庫 ………………………………………………… 146
7.4.2 代碼實現 ……………………………………………………………… 148
7.5 本章小結 …………………………………………………………………… 153
參考文獻…………………………………………………………………………… 153
第8章 Selenium技術……………………………………………………………… 154
8.1 初識Selenium ……………………………………………………………… 154
8.1.1 安裝Selenium ………………………………………………………… 155
8.1.2 安裝瀏覽器驅動 ……………………………………………………… 156
8.1.3 PhantomJS …………………………………………………………… 158
8.2 快速開始Selenium解析…………………………………………………… 159
8.3 定位元素 …………………………………………………………………… 162
8.3.1 通過id屬性定位元素 ………………………………………………… 163
8.3.2 通過name屬性定位元素 …………………………………………… 165
8.3.3 通過XPath路徑定位元素 …………………………………………… 166
8.3.4 通過起鏈接文本定位元素 …………………………………………… 168
8.3.5 通過標簽名定位元素 ………………………………………………… 169
8.3.6 通過類屬性名定位元素 ……………………………………………… 170
8.3.7 通過CSS選擇器定位元素 …………………………………………… 170
8.4 常用方法和屬性 …………………………………………………………… 170
8.4.1 操作元素的方法 ……………………………………………………… 170
8.4.2 WebElement常用屬性 ……………………………………………… 174
8.5 鍵盤和鼠標自動化操作 …………………………………………………… 175
8.5.1 鍵盤操作 ……………………………………………………………… 175
8.5.2 鼠標操作 ……………………………………………………………… 177
8.6 導航控製 …………………………………………………………………… 178
8.6.1 下拉菜單交互操作 …………………………………………………… 178
8.6.2 Window和Frame間對話框的移動 ………………………………… 179
8.7 本章小結 …………………………………………………………………… 180
參考文獻…………………………………………………………………………… 180
第9章 Selenium爬取在綫百科知識……………………………………………… 181
9.1 三大在綫百科 ……………………………………………………………… 181
9.1.1 維基百科 ……………………………………………………………… 181
9.1.2 百度百科 ……………………………………………………………… 183
9.1.3 互動百科 ……………………………………………………………… 184
9.2 Selenium爬取維基百科 …………………………………………………… 185
9.2.1 網頁分析 ……………………………………………………………… 185
9.2.2 代碼實現 ……………………………………………………………… 190
9.3 Selenium爬取百度百科 …………………………………………………… 190
9.3.1 網頁分析 ……………………………………………………………… 190
9.3.2 代碼實現 ……………………………………………………………… 195
9.4 Selenium爬取互動百科 …………………………………………………… 198
9.4.1 網頁分析 ……………………………………………………………… 198
9.4.2 代碼實現 ……………………………………………………………… 200
9.5 本章小結 …………………………………………………………………… 202
參考文獻…………………………………………………………………………… 203
第10章 基於數據庫存儲的Selenium博客爬蟲 …………………………………… 204
10.1 博客網站…………………………………………………………………… 204
10.2 Selenium爬取博客信息 ………………………………………………… 206
10.2.1 Forbidden錯誤 ……………………………………………………… 206
10.2.2 分析博客網站翻頁方法……………………………………………… 208
10.2.3 DOM 樹節點分析及網頁爬取 ……………………………………… 210
10.3 MySQL數據庫存儲博客信息 …………………………………………… 212
10.3.1 Navicat for MySQL創建錶 ………………………………………… 213
10.3.2 Python操作 MySQL數據庫 ……………………………………… 214
10.3.3 代碼實現……………………………………………………………… 216
10.4 本章小結…………………………………………………………………… 222
第11章 基於登錄分析的Selenium微博爬蟲 ……………………………………… 223
11.1 登錄驗證…………………………………………………………………… 223
11.2 初識微博爬蟲……………………………………………………………… 226
11.2.1 微 博………………………………………………………………… 226
11.2.2 登錄入口……………………………………………………………… 227
Python網絡數據爬取及分析從入門到精通(爬取篇) 下載 mobi pdf epub txt 電子書 格式 2024
Python網絡數據爬取及分析從入門到精通(爬取篇) 下載 mobi epub pdf 電子書Python網絡數據爬取及分析從入門到精通(爬取篇) mobi epub pdf txt 電子書 格式下載 2024