命令行中的數據科學

命令行中的數據科學 下載 mobi epub pdf 電子書 2024


簡體網頁||繁體網頁
[荷] 詹森斯(Jeroen Janssens) 著,王曉偉,劉峰 譯



點擊這裡下載
    

想要找書就要到 圖書大百科
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!

發表於2024-11-05

類似圖書 點擊查看全場最低價


圖書介紹

齣版社: 人民郵電齣版社
ISBN:9787115391681
版次:1
商品編碼:11699373
包裝:平裝
叢書名: 圖靈程序設計叢書
開本:16開
齣版時間:2015-06-01
用紙:膠版紙
頁數:169
正文語種:中文


相關圖書





圖書描述

編輯推薦

  大數據時代,數據科學研究與分析日益重要。本書獨樹一幟,教你利用靈活的命令行工具成為高效多産的數據科學傢。

  為此,作者開發瞭數據科學工具箱,一個包含80多個命令行工具的安裝簡單的虛擬環境,能在Windows、OS X和Linux操作係統上運行。你將學會如何結閤使用這些小而強大的命令行工具,快速地獲取、清洗、探索和建模數據。

  通過閱讀本書,你會明白為什麼命令行是一種靈活、可伸縮、易擴展的技術。即使你已經能夠使用Python或R得心應手地處理數據,利用命令行也將大大改進你的數據科學工作流。

內容簡介

  《命令行中的數據科學》集實用性和先進性於一身,為數據分析人員使用命令行這個靈活的工具提供瞭重要參考。作者講解瞭眾多實用的命令行工具,以及如何使用它們高效地獲取、清洗、探索和建模數據。論你使用Windows、OS X,還是Linux,都可以安裝包含80多個命令行工具的“數據科學工具箱”,迅速建立自己的數據分析環境。論你是否已經習慣於使用Python或R語言,都能夠通過本書體會到使用命令行的快捷、靈活與伸縮自如。

作者簡介

  Jeroen Janssens,愛思唯爾(世界領先的科技及醫學齣版公司)首席數據科學傢,曾是紐約YPlan公司高級數據科學傢。專門從事機器學習、異常檢測和數據可視化。在荷蘭馬斯特裏赫特大學獲得人工智能碩士學位,在荷蘭蒂爾堡大學獲得機器學習博士學位。他熱衷於創建數據科學的開源工具。

  王曉偉,畢業於國防科學技術大學,獲計算機科學與技術專業博士學位。研究興趣為海量數據管理與挖掘。

  劉峰,百度LBS位置大數據部資深研發工程師,新加坡南洋理工大學計算機工程係博士,研究領域包括機器學習、神經網絡、數據挖掘等。2010年加入百度,主要從事大數據分析和挖掘方麵的工作,近年來專注於網絡定位、智能交通等LBS大數據的挖掘和機器學習應用。

內頁插圖

精彩書評

  ★“命令行體現瞭Unix‘簡單工具’的理念,即每個工具完成一項工作,然後巧妙地連接在一起。Jeroen很專業地討論瞭怎樣將這個理念引入數據科學工作,展示瞭為什麼命令行不僅能夠進行簡單的文件輸入/輸齣,還是數據操作、探索,甚至建模的利器。”

  ——Chris H. Wiggins,《紐約時報》首席數據科學傢,哥倫比亞大學應用物理學與應用數學係副教授


  ★“這本書講解瞭如何將常見的數據科學任務集成到一個連貫的工作流,涵蓋瞭分解問題和組閤方案的策略。”

  ——John D. Cook,知名應用數學、統計及軟件開發谘詢顧問

目錄

前言 XIII
第1 章 簡介 1
1.1 概述 1
1.2 數據科學就是OSEMN 2
1.2.1 數據獲取 2
1.2.2 數據清洗 2
1.2.3 數據探索 3
1.2.4 數據建模 3
1.2.5 數據解釋 3
1.3 插入的幾章 4
1.4 什麼是命令行 4
1.5 為什麼用命令行做數據科學工作 6
1.5.1 命令行的靈活性 6
1.5.2 命令行可增強 6
1.5.3 命令行可擴展 7
1.5.4 命令行可擴充 7
1.5.5 命令行處不在 7
1.6 一個現實用例 8
1.7 延伸閱讀 11
第2 章 入門指南 13
2.1 概述 13
2.2 設置數據科學工具箱 13
2.2.1 步驟1:下載和安裝VirtualBox 14
2.2.2 步驟2:下載和安裝Vagrant 14
2.2.3 步驟3:下載並啓動數據科學工具箱 14
2.2.4 步驟4:登錄(Linux 和Mac OS X) 16
2.2.5 步驟4:登錄(微軟Windows) 16
2.2.6 步驟5:關閉或重啓 16
2.3 必要的概念和工具 17
2.3.1 環境 17
2.3.2 運行命令行工具 18
2.3.3 五類命令行工具 19
2.3.4 命令行工具的組閤 21
2.3.5 輸入和輸齣重定嚮 22
2.3.6 處理文件 23
2.3.7 尋求幫助 24
2.4 延伸閱讀 26
第3 章 數據獲取 27
3.1 概述 27
3.2 將本地文件復製到數據科學工具箱 28
3.2.1 本地數據科學工具箱 28
3.2.2 遠程數據科學工具箱 28
3.3 解壓縮文件 29
3.4 微軟Excel 電子錶格的轉換 30
3.5 查詢關係數據庫 32
3.6 從互聯網下載 33
3.7 調用Web API 35
3.8 延伸閱讀 36
第4 章 創建可重用的命令行工具 37
4.1 概述 38
4.2 將單行轉變為shell 腳本 38
4.2.1 步驟1:復製和粘貼 39
4.2.2 步驟2:添加執行權限 40
4.2.3 步驟3:定義shebang 41
4.2.4 步驟4:刪除固定的輸入 42
4.2.5 步驟5:參數化 42
4.2.6 步驟6:擴展PATH 43
4.3 用Python 和R 創建命令行工具 44
4.3.1 移植shell 腳本 45
4.3.2 處理來自標準輸入的流數據 46
4.4 延伸閱讀 47
第5 章 數據清洗 49
5.1 概述 50
5.2 純文本的常見清洗操作 50
5.2.1 行過濾 50
5.2.2 值提取 54
5.2.3 值替換和刪除 55
5.3 處理CSV 56
5.3.1 主體、頭部和列 56
5.3.2 對CSV 執行SQL 查詢 60
5.4 處理HTML/XML 和JSON 61
5.5 CSV 的常見清洗操作 65
5.5.1 列的提取和重排序 65
5.5.2 行過濾 66
5.5.3 列閤並 67
5.5.4 多個CSV 文件的閤並 70
5.6 延伸閱讀 73
第6 章 管理數據工作流 75
6.1 概述 76
6.2 Drake 簡介 76
6.3 Drake 的安裝 76
6.4 獲取古騰堡計劃中下載最多的電子書 78
6.5 所有工作流都從單個步驟開始 79
6.6 具體情況具體對待 81
6.7 重新構建具體目標 82
6.8 討論 83
6.9 延伸閱讀 83
第7 章 數據探索 85
7.1 概述 85
7.2 檢查數據及其屬性 86
7.2.1 確定有數據頭 86
7.2.2 檢查所有數據 86
7.2.3 特徵名稱和數據類型 87
7.2.4 唯一標識、連續變量和因子 89
7.3 計算描述性統計信息 90
7.3.1 使用csvstat 90
7.3.2 在命令行中通過Rio 使用R 92
7.4 生成可視化圖形 95
7.4.1 介紹Gunplot 和feedgnuplot 95
7.4.2 介紹ggplot2 97
7.4.3 直方圖 99
7.4.4 條形圖 101
7.4.5 密度圖 102
7.4.6 箱綫圖 103
7.4.7 散點圖 103
7.4.8 摺綫圖 105
7.4.9 總結 106
7.5 延伸閱讀 106
第8 章 並行管道 107
8.1 概述 108
8.2 串行處理 108
8.2.1 對數字進行遍曆 108
8.2.2 對行進行遍曆 109
8.2.3 對文件進行遍曆 110
8.3 並行處理 111
8.3.1 GNU Parallel 介紹 112
8.3.2 指定輸入 113
8.3.3 控製並發任務的個數 114
8.3.4 記錄日誌和輸齣 115
8.3.5 創建並行工具 116
8.4 分布式處理 117
8.4.1 獲得運行中的AWS EC2 實例列錶 117
8.4.2 在遠程機器上運行命令 118
8.4.3 在遠程機器間分發本地數據 119
8.4.4 在遠程機器上處理文件 120
8.5 討論 123
8.6 延伸閱讀 123
第9 章 數據建模 125
9.1 概述 126
9.2 更多的酒,來吧! 126
9.3 用Tapkee 降維 129
9.3.1 介紹Tapkee 130
9.3.2 安裝Tapkee 130
9.3.3 綫性和非綫性映射 130
9.4 用Weka 聚類 132
9.4.1 介紹Weka 132
9.4.2 在命令行裏改進Weka 132
9.4.3 在CSV 和ARFF 格式之間轉換 136
9.4.4 比較三種聚類算法 136
9.5 通過SciKit-Learn Laboratory 進行迴歸 139
9.5.1 準備數據 139
9.5.2 運行實驗 139
9.5.3 解析結果 140
9.6 用BigML 分類 141
9.6.1 生成均衡的訓練和測試數據集 141
9.6.2 調用API 143
9.6.3 檢查結果 143
9.6.4 小結 144
9.7 延伸閱讀 144
第10 章 總結 145
10.1 讓我們迴顧一下145
10.2 三條建議 146
10.2.1 有耐心 146
10.2.2 有所創新 146
10.2.3 肯於實踐 147
10.3 接下來做什麼 147
10.3.1 API 147
10.3.2 shell 編程 147
10.3.3 Python、R 和SQL 147
10.3.4 數據解釋 148
10.4 聯係方式 148
附錄A 命令行工具列錶 149
附錄B 參考文獻 167
作者介紹 169
封麵介紹 169

精彩書摘

  數據科學是個激動人心卻又非常年輕的領域。不幸的是,許多個人和公司,總是認為需要利用新技術纔能解決數據科學提齣的問題。實際上,正如本書所揭示的,許多問題使用命令行就能解決,而且有時候效率要高得多。

  大約5 年前,在攻讀博士學位期間,我逐步從使用微軟Windows 轉為使用GUN/Linux。剛開始我有點謹小慎微,因此同時安裝瞭這兩個操作係統(也就是雙係統啓動)。後來,在這兩個係統之間切換的需求越來越少,有時我甚至對Arch Linux 修修補補,能從零開始自己定製操作係統。這時能用的隻有命令行,而且想做什麼完全隨心所欲。很快,我就對使用命令行得心應手。最終,由於業餘時間越來越寶貴,我決定使用名為Ubuntu 的GNU/Linux 發行版,因為它易於使用並且有龐大的社區。盡管如此,命令行仍然是我完成絕大部分工作的不二選擇。

  實際上,我後來認識到,命令行不單可以用於安裝軟件、配置係統以及搜索文件。於是我開始學習諸如cut、sort 和sed 這些命令行工具。這些工具都是將數據作為輸入,對數據進行處理,然後打印結果。Ubuntu 自帶瞭相當多這樣的工具。當明白可以將這些小工具結閤起來使用時,我就對它入迷瞭。

  當我拿到博士學位,成為一名數據科學傢時,我想充分利用這種方法來做數據科學工作。

  幸虧有幾個新的開源命令行工具,包括scrape、jq 和json2csv,我甚至能夠使用命令行來完成抓取網站以及處理大量JSON 數據這樣的任務。2013 年9 月,我寫瞭一篇名為“數據科學的7 個命令行工具”的博客文章(http://jeroenjanssens.com/2013/09/19/seven-commandline-tools-for-data-science.html)。讓我吃驚的是,這篇文章獲得很大反響。後來許多人嚮我推薦其他命令行工具,於是我開始考慮是否可以將這篇文章擴充成書。令人高興的是,10個月之後,在許多纔華橫溢的人的幫助下(參見“緻謝”),本書得以付梓。

  分享這段個人經曆不僅是想介紹本書的由來,更是希望你知道我也是需要學習命令行的。使用命令行與使用圖形化用戶界麵迥然不同,剛開始可能是令人生畏的。但是,既然我能夠學會它,你當然也沒問題。不管你目前使用的是什麼操作係統,也不管你現在是以什麼方式做數據科學的工作,讀完本書,你也能夠利用命令行的強大能力。即使你已經熟悉命令行,或者甚至已經打算學習shell 腳本,你仍然可能在書中發現一些有趣技巧或命令行工具,能用於未來的數據科學項目。

  從本書可以學到的

  書中將對大量數據進行獲取、清洗、探索以及建模。我們不會過多介紹如何完成這些數據科學任務,因為對於諸如應該何時及用什麼進行統計檢驗,或者怎樣纔能將數據可視化做到最好,很容易找到大量參考資料。本書緻力於實用性,旨在通過教你用命令行執行數據科學任務,使你更加高效和多産。

  盡管書中討論瞭80 多個命令行工具,但這些工具本身並不是最重要的。有些命令行工具存在已久,有些則是新近齣現,並且可能最終會被更好的工具所取代。甚至在你閱讀本書的時候,有的命令行工具正在創建之中。在過去的10 個月裏,我就已經發現瞭許多奇妙的命令行工具。遺憾的是,有的工具被發現的時間太晚,無法包含在本書中。總之,命令行工具的新陳代謝是常態。

  用工具、管道和數據進行工作的思想纔是最重要的。多數命令行工具隻做一項任務,並且做得很好。這符閤Unix 的理念,這種理念在書中許多地方都有體現。一旦熟悉瞭命令行,並且學會瞭如何將命令行工具結閤起來,你就學會瞭一項非常寶貴的技能。如果還能創建新的工具,那你就齣類拔萃瞭。

  ……

前言/序言


命令行中的數據科學 下載 mobi epub pdf txt 電子書 格式

命令行中的數據科學 mobi 下載 pdf 下載 pub 下載 txt 電子書 下載 2024

命令行中的數據科學 下載 mobi pdf epub txt 電子書 格式 2024

命令行中的數據科學 下載 mobi epub pdf 電子書
想要找書就要到 圖書大百科
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!

用戶評價

評分

現在計算機書的書價有點誇裝瞭,這本100多頁竟然定價快50,要不是搞活動,估計不會買瞭...

評分

老公一直在京東買書,買瞭有2韆瞭吧

評分

正版,內容閤適

評分

很好很不錯,很好很不錯

評分

挺不錯的吧,就是圖靈的書有點貴

評分

做偏運維的事情,但並不想把自己局限在內,敗瞭這本書用來與自己已有的知識體係相互印證,擴展一下視野的。這是一本比較實用的書,很多思路和內容並不僅對狹義的數據處理有用。

評分

《煩惱都是自找的》內容特色如下:

評分

中肯。

評分

數據關聯是數據庫中存在的一類重要的可被發現的知識。若兩個或多個變量的取值之間存在某種規律性,就稱為關聯。關聯可分為簡單關聯、時序關聯、因果關聯。關聯分析的目的是找齣數據庫中隱藏的關聯網。有時並不知道數據庫中數據的關聯函數,即使知道也是不確定的,因此關聯分析生成的規則帶有可信度。關聯規則挖掘發現大量數據中項集之間有趣的關聯或相關聯係。Agrawal等於1993年首先提齣瞭挖掘顧客交易數據庫中項集間的關聯規則問題,以後諸多的研究人員對關聯規則的挖掘問題進行瞭大量的研究。他們的工作包括對原有的算法進行優化,如引入隨機采樣、並行的思想等,以提高算法挖掘規則的效率;對關聯規則的應用進行推廣。關聯規則挖掘在數據挖掘中是一個重要的課題,最近幾年已被業界所廣泛研究。

類似圖書 點擊查看全場最低價

命令行中的數據科學 mobi epub pdf txt 電子書 格式下載 2024


分享鏈接




相關圖書


本站所有內容均為互聯網搜索引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度google,bing,sogou

友情鏈接

© 2024 book.teaonline.club All Rights Reserved. 圖書大百科 版權所有