發表於2024-11-05
《Python 網絡爬蟲實戰》從Python的安裝開始,詳細講解瞭Python從簡單程序延伸到Python網絡爬蟲的全過程。《Python 網絡爬蟲實戰》從實戰齣發,根據不同的需求選取不同的爬蟲,有針對性地講解瞭幾種Python網絡爬蟲。
《Python 網絡爬蟲實戰》共8章,涵蓋的內容有Python語言的基本語法、Python常用IDE的使用、Python第三方模塊的導入使用、Python爬蟲常用模塊、Scrapy爬蟲、Beautiful Soup爬蟲、Mechanize模擬瀏覽器和Selenium模擬瀏覽器。本書所有源代碼已上傳網盤供讀者下載。
《Python 網絡爬蟲實戰》內容豐富,實例典型,實用性強。適閤Python網絡爬蟲初學者、數據分析與挖掘技術初學者,以及高校及培訓學校相關專業的師生閱讀。
鬍鬆濤,高級工程師,參與多個Linux開源項目,github知名代碼分享者,活躍於國內著名的多個開源論壇。齣版圖書《樹莓派開發從零開始學--超好玩的智能小硬件製作書》。
第1章 Python環境配置 1
1.1 Python簡介 1
1.1.1 Python的曆史由來 1
1.1.2 Python的現狀 2
1.1.3 Python的應用 2
1.2 Python開發環境配置 4
1.2.1 Windows下安裝Python 4
1.2.2 Windows下安裝配置pip 9
1.2.3 Linux下安裝Python 10
1.2.4 Linux下安裝配置pip 12
1.2.5 永遠的開始:hello world 15
1.3 本章小結 20
第2章 Python基礎 21
2.1 Python變量類型 21
2.1.1 數字 21
2.1.2 字符串 24
2.1.3 列錶 28
2.1.4 元組 34
2.1.5 字典 36
2.2 Python語句 40
2.2.1 條件語句——if else 40
2.2.2 有限循環——for 41
2.2.3 無限循環——while 43
2.2.4 中斷循環——continue、break 45
2.2.5 異常處理——try except 47
2.2.6 導入模塊——import 49
2.3 函數和類 53
2.3.1 函數 53
2.3.2 類 59
2.4 Python代碼格式 65
2.4.1 Python代碼縮進 65
2.4.2 Python命名規則 66
2.4.3 Python代碼注釋 68
2.5 Python調試 70
2.5.1 Windows下IDLE調試 70
2.5.2 Linux下pdb調試 73
2.6 本章小結 77
第3章 簡單的Python腳本 78
3.1 九九乘法錶 78
3.1.1 Project分析 78
3.1.2 Project實施 78
3.2 斐波那契數列 80
3.2.1 Project分析 80
3.2.2 Project實施 80
3.3 概率計算 81
3.3.1 Project分析 81
3.3.2 Project實施 82
3.4 讀寫文件 83
3.4.1 Project分析 83
3.4.2 project實施 84
3.5 本章小結 85
第4章 Python爬蟲常用模塊 86
4.1 Python標準庫之urllib2模塊 86
4.1.1 urllib2請求返迴網頁 86
4.1.2 urllib2使用代理訪問網頁 88
4.1.3 urllib2修改header 91
4.2 Python標準庫——logging模塊 95
4.2.1 簡述logging模塊 95
4.2.2 自定義模塊myLog 99
4.3 其他有用模塊 102
4.3.1 re模塊(正則錶達式操作) 102
4.3.2 sys模塊(係統參數獲取) 105
4.3.3 time模塊(獲取時間信息) 106
4.4 本章小結 110
第5章 Scrapy爬蟲框架 111
5.1 安裝Scrapy 111
5.1.1 Windows下安裝Scrapy環境 111
5.1.2 Linux下安裝Scrapy 112
5.1.3 vim編輯器 113
5.2 Scrapy選擇器XPath和CSS 114
5.2.1 XPath選擇器 114
5.2.2 CSS選擇器 117
5.2.3 其他選擇器 118
5.3 Scrapy爬蟲實戰一:今日影視 118
5.3.1 創建Scrapy項目 119
5.3.2 Scrapy文件介紹 120
5.3.3 Scrapy爬蟲編寫 123
5.4 Scrapy爬蟲實戰二:天氣預報 129
5.4.1 項目準備 130
5.4.2 創建編輯Scrapy爬蟲 131
5.4.3 數據存儲到json 138
5.4.4 數據存儲到MySQL 140
5.5 Scrapy爬蟲實戰三:獲取代理 146
5.5.1 項目準備 146
5.5.2 創建編輯Scrapy爬蟲 147
5.5.3 多個Spider 153
5.5.4 處理Spider數據 157
5.6 Scrapy爬蟲實戰四:糗事百科 159
5.6.1 目標分析 159
5.6.2 創建編輯Scrapy爬蟲 160
5.6.3 Scrapy項目中間件——添加headers 161
5.6.4 Scrapy項目中間件——添加proxy 165
5.7 scrapy爬蟲實戰五:爬蟲攻防 167
5.7.1 創建一般爬蟲 167
5.7.2 封鎖間隔時間破解 171
5.7.3 封鎖Cookies破解 171
5.7.4 封鎖user-agent破解 171
5.7.5 封鎖IP破解 174
5.8 本章小結 177
第6章 Beautiful Soup爬蟲 178
6.1 安裝Beautiful Soup環境 178
6.1.1 Windows下安裝Beautiful Soup 178
6.1.2 Linux下安裝Beautiful Soup 179
6.1.3 最強大的IDE——Eclipse 179
6.2 BeautifulSoup解析器 188
6.2.1 bs4解析器選擇 188
6.2.2 lxml解析器安裝 189
6.2.3 使用bs4過濾器 190
6.3 bs4爬蟲實戰一:獲取百度貼吧內容 196
6.3.1 目標分析 196
6.3.2 項目實施 197
6.3.3 代碼分析 205
6.3.4 Eclipse調試 206
6.4 bs4爬蟲實戰二:獲取雙色球中奬信息 207
6.4.1 目標分析 207
6.4.2 項目實施 210
6.4.3 保存結果到Excel 214
6.4.4 代碼分析 221
6.5 bs4爬蟲實戰三:獲取起點小說信息 221
6.5.1 目標分析 222
6.5.2 項目實施 223
6.5.3 保存結果到MySQL 226
6.5.4 代碼分析 230
6.6 bs4爬蟲實戰四:獲取電影信息 230
6.6.1 目標分析 230
6.6.2 項目實施 232
6.6.3 bs4反爬蟲 235
6.6.4 代碼分析 237
6.7 bs4爬蟲實戰五:獲取音悅颱榜單 238
6.7.1 目標分析 238
6.7.2 項目實施 239
6.7.3 代碼分析 244
6.8 本章小結 245
第7章 Mechanize模擬瀏覽器 246
7.1 安裝Mechanize模塊 246
7.1.1 Windows下安裝Mechanize 246
7.1.2 Linux下安裝Mechanize 247
7.2 Mechanize 測試 248
7.2.1 Mechanize百度 248
7.2.2 Mechanize光貓F460 251
7.3 Mechanize實站一:獲取Modem信息 254
7.3.1 獲取F460數據 254
7.3.2 代碼分析 257
7.4 Mechanize實戰二:獲取音悅颱公告 258
7.4.1 登錄原理 258
7.4.2 獲取Cookie的方法 259
7.4.3 獲取Cookie 262
7.4.4 使用Cookie登錄獲取數據 266
7.5 本章總結 270
第8章 Selenium模擬瀏覽器 271
8.1 安裝Selenium模塊 271
8.1.1 Windows下安裝Selenium模塊 271
8.1.2 Linux下安裝Selenium模塊 272
8.2 瀏覽器選擇 272
8.2.1 Webdriver支持列錶 272
8.2.2 Windows下安裝PhantomJS 273
8.2.3 Linux下安裝PhantomJS 276
8.3 Selenium&PhantomJS;抓取數據 277
8.3.1 獲取百度搜索結果 277
8.3.2 獲取搜索結果 280
8.3.3 獲取有效數據位置 282
8.3.4 從位置中獲取有效數據 284
8.4 Selenium&PhantomJS;實戰一:獲取代理 285
8.4.1 準備環境 285
8.4.2 爬蟲代碼 287
8.4.3 代碼解釋 289
8.5 Selenium&PhantomJS;實戰二:漫畫爬蟲 289
8.5.1 準備環境 290
8.5.2 爬蟲代碼 291
8.5.3 代碼解釋 294
8.6 本章總結 294
前 言
計算機技術飛速發展,人們對計算機使用技能的要求也越來越高。在編寫軟件時,大傢既希望有超高的效率,又希望這門語言簡單易用。這種魚與熊掌皆得的要求的確很高,Python編程語言恰好符閤這麼苛刻的要求。
Python的執行效率僅比效率之王C略差一籌,在簡單易用方麵Python也名列三甲。可以說Python在效率和簡單之間達到瞭平衡。另外,Python還是一門膠水語言,可以將其他編程語言的優點融閤在一起,達到1+1>2的效果。這也是Python如今使用人數越來越多的原因。
Python語言發展迅速,在各行各業都發揮獨特的作用。在各大企業、學校、機關都運行著Python明星程序。但就個人而言,運用Python最多的還是網絡爬蟲(這裏的爬蟲僅涉及從網頁提取數據,不涉及深度、廣度算法爬蟲搜索)。在網絡上經常更新的數據,無須每次都打開網頁瀏覽,使用爬蟲程序,一鍵獲取數據,下載保存後分析。考慮到Python爬蟲在網絡上的資料雖多,但大多都不成係統,難以提供係統有效的學習。因此筆者拋磚引玉,編寫瞭這本有關Python網絡爬蟲的書,以供讀者學習參考。
Python簡單易學,Python爬蟲也不復雜。隻需要瞭解瞭Python的基本操作即可自行編寫。本書中介紹瞭幾種不同類型的Python爬蟲,可以針對不同情況的站點進行數據收集。
本書特色
附帶全部源代碼
為瞭便於讀者理解本書內容,作者已將全部的源代碼上傳到網絡,供讀者下載使用。讀者通過代碼學習開發思路,精簡優化代碼。
涵蓋瞭Linux&Windows;上模塊的安裝配置
本書包含瞭Python模塊源的配置、模塊的安裝,以及常用IDE的使用。
實戰實例
通過常用的實例,詳細說明網絡爬蟲的編寫過程。
本書結構
本書共8章,前麵4章簡單地介紹瞭Python的基本用法和簡單Python程序的編寫。第5章的Scrapy爬蟲框架主要針對一般無須登錄的網站,在爬取大量數據時使用Scrapy會很方便。第6章的Beautiful Soup爬蟲可以算作爬蟲的“個人版”。Beautiful Soup爬蟲主要針對一些爬取數據比較少的,結構簡單的網站。第7章的Mechanize模塊,主要功能是模擬瀏覽器。它的作用主要是針對那些需要登錄驗證的網站。第8章的Selenium模塊,主要功能也是模擬瀏覽器,它的作用主要是針對JavaScript返迴數據的網站。
本書讀者與作者
Python網絡爬蟲初學者
數據分析與挖掘技術初學者
高校和培訓學校相關專業的師生
本書由鬍鬆濤主筆,其他參與編寫的有宋士偉、張倩、彭霽、楊旺功、鄒瑛、王鐵民、殷龍、李春城、張興瑜、劉祥淼、李柯泉、林龍、趙殿華、牛曉雲。
編 者
2016年11月
Python 網絡爬蟲實戰 [Web Crawler With Python] 下載 mobi pdf epub txt 電子書 格式 2024
Python 網絡爬蟲實戰 [Web Crawler With Python] 下載 mobi epub pdf 電子書專業必備正版脈絡清晰幫助很大
評分專業必備正版脈絡清晰幫助很大
評分2017年的新書,包括瞭幾種典型的爬蟲。
評分比較基礎,希望能有收獲
評分書裏不少示範代碼。需多學習。
評分很好的爬蟲入門書
評分實用,還沒拆,慢慢看
評分好書好書好書好書好書
評分還沒看感覺封麵還行
Python 網絡爬蟲實戰 [Web Crawler With Python] mobi epub pdf txt 電子書 格式下載 2024