作 者:崔慶纔 著作 定 價:99 齣 版 社:人民郵電齣版社 齣版日期:2018年04月01日 頁 數:594 裝 幀:平裝 ISBN:9787115480347 案例豐富,注重實戰 博客文章過百萬的靜覓大神力作 全麵介紹瞭數據采集、數據存儲、動態網站爬取、App爬取、驗證碼破解、模擬登錄、代理使用、爬蟲框架、分布式爬取等知識 涉及的庫或工具:urllib、requests、Beautiful Soup、XPath、pyquery、redis-py、PyMongo、PyMySQL、Selenium、Splash、Charles、mitmproxy、mitmdump、Appium、pyspider、Scrapy、Scr等
●第1章 開發環境配置 11.1 Python 3的安裝 11.1.1 Windows下的安裝 11.1.2 Linux下的安裝 61.1.3 Mac下的安裝 81.2 請求庫的安裝 101.2.1 requests的安裝 101.2.2 Selenium的安裝 111.2.3 ChromeDriver的安裝 121.2.4 GeckoDriver的安裝 151.2.5 PhantomJS的安裝 171.2.6 aiohttp的安裝 181.3 解析庫的安裝 191.3.1 lxml的安裝 191.3.2 Beautiful Soup的安裝 211.3.3 pyquery的安裝 221.3.4 tesserocr的安裝 221.4 數據庫的安裝 261.4.1 MySQL的安裝 271.4.2 MongoDB的安裝 291.4.3 Redis的安裝 361.5 存儲庫的安裝 391.5.1 PyMySQL的安裝 391.5.2 PyMongo的安裝 391.5.3 redis-py的安裝 401.5.4 RedisDump的安裝 401.6 Web庫的安裝 411.6.1 Flask的安裝 411.6.2 Tornado的安裝 421.7 App爬取相關庫的安裝 431.7.1 Charles的安裝 441.7.2 mitmproxy的安裝 501.7.3 Appium的安裝 551.8 爬蟲框架的安裝 591.8.1 pyspider的安裝 591.8.2 Scrapy的安裝 611.8.3 Scrapy-Splash的安裝 651.8.4 Scrapy-Redis的安裝 661.9 部署相關庫的安裝 671.9.1 Docker的安裝 671.9.2 Scrapyd的安裝 711.9.3 Scrapyd-Client的安裝 741.9.4 Scrapyd API的安裝 751.9.5 Scrapyrt的安裝 751.9.6 Gerapy的安裝 76第2章 爬蟲基礎 772.1 HTTP基本原理 772.1.1 URI和URL 772.1.2 超文本 782.1.3 HTTP和HTTPS 782.1.4 HTTP請求過程 802.1.5 請求 822.1.6 響應 842.2 網頁基礎 872.2.1 網頁的組成 872.2.2 網頁的結構 882.2.3 節點樹及節點間的關係 902.2.4 選擇器 912.3 爬蟲的基本原理 932.3.1 爬蟲概述 932.3.2 能抓怎樣的數據 942.3.3 渲染頁麵 942.4 會話和Cookies 952.4.1 靜態網頁和動態網頁 952.4.2 無狀態HTTP 962.4.3 常見誤區 982.5 代理的基本原理 992.5.1 基本原理 992.5.2 代理的作用 992.5.3 爬蟲代理 1002.5.4 代理分類 1002.5.5 常見代理設置 101第3章 基本庫的使用 1023.1 使用urllib 1023.1.1 發送請求 1023.1.2 處理異常 1123.1.3 解析鏈接 1143.1.4 分析Robots協議 1193.2 使用requests 1223.2.1 基本用法 1223.2.2 高級用法 1303.3 正則錶達式 1393.4 抓取貓眼電影排行 150第4章 解析庫的使用 1584.1 使用XPath 1584.2 使用Beautiful Soup 1684.3 使用pyquery 184第5章 數據存儲 1975.1 文件存儲 1975.1.1 TXT文本存儲 1975.1.2 JSON文件存儲 1995.1.3 CSV文件存儲 2035.2 關係型數據庫存儲 2075.2.1 MySQL的存儲 2075.3 非關係型數據庫存儲 2135.3.1 MongoDB存儲 2145.3.2 Redis存儲 221第6章 Ajax數據爬取 2326.1 什麼是Ajax 2326.2 Ajax分析方法 2346.3 Ajax結果提取 2386.4 分析Ajax爬取今日頭條街拍美圖 242第7章 動態渲染頁麵爬取 2497.1 Selenium的使用 2497.2 Splash的使用 2627.3 Splash負載均衡配置 2867.4 使用Selenium爬取商品 289第8章 驗證碼的識彆 2988.1 圖形驗證碼的識彆 2988.2 極驗滑動驗證碼的識彆 3018.3 點觸驗證碼的識彆 3118.4 微博宮格驗證碼的識彆 318第9章 代理的使用 3269.1 代理的設置 3269.2 代理池的維護 3339.3 付費代理的使用 3479.4 ADSL撥號代理 3519.5 使用代理爬取微信公眾號文章 364第10章 模擬登錄 37910.1 模擬登錄並爬取GitHub 37910.2 Cookies池的搭建 385第11章 App的爬取 39811.1 Charles的使用 39811.2 mitmproxy的使用 40511.3 mitmdump爬取“得到”App電子書信息 41711.4 Appium的基本使用 42311.5 Appium爬取微信朋友圈 43311.6 Appium+mitmdump爬取京東商品 437第12章 pyspider框架的使用 44312.1 pyspider框架介紹 44312.2 pyspider的基本使用 44512.3 pyspider用法詳解 459第13章 Scrapy框架的使用 46813.1 Scrapy框架介紹 46813.2 Scrapy入門 47013.3 Selector的用法 48013.4 Spider的用法 48613.5 Downloader Middleware的用法 48713.6 Spider Middleware的用法 49413.7 Item Pipeline的用法 49613.8 Scrapy對接Selenium 50613.9 Scrapy對接Splash 51113.10 Scrapy通用爬蟲 51613.11 Scrapyrt的使用 53313.12 Scrapy對接Docker 53613.13 Scrapy爬取新浪微博 541第14章 分布式爬蟲 55514.1 分布式爬蟲原理 55514.2 Scrapy-Redis源碼解析 55814.3 Scrapy分布式實現 56414.4 Bloom Filter的對接 569第15章 分布式爬蟲的部署 57715.1 Scrapyd分布式部署 57715.2 Scrapyd-Client的使用 58215.3 Scrapyd對接Docker 58315.4 Scrapyd批量部署 58615.5 Gerapy分布式管理 590
內容簡介
本書介紹瞭如何利用Python 3開發網絡爬蟲,書中首先介紹瞭環境配置和基礎知識,然後討論瞭urllib、requests、正則錶達式、Beautiful Soup、XPath、pyquery、數據存儲、Ajax數據爬取等內容,接著通過多個案例介紹瞭不同場景下如何實現數據爬取,很後介紹瞭pyspider框架、Scrapy框架和分布式爬蟲。 本書適閤Python程序員閱讀。 崔慶纔 著作 崔慶纔,北京航空航天大學碩士,靜覓博客博主,爬蟲博文訪問量已過百萬,喜歡鑽研,熱愛生活,樂於分享。
PYTHON3網絡爬蟲開發實戰 下載 mobi epub pdf txt 電子書 格式