發表於2024-11-05
大數據時代,數據科學研究與分析日益重要。本書獨樹一幟,教你利用靈活的命令行工具成為高效多産的數據科學傢。
為此,作者開發瞭數據科學工具箱,一個包含80多個命令行工具的安裝簡單的虛擬環境,能在Windows、OS X和Linux操作係統上運行。你將學會如何結閤使用這些小而強大的命令行工具,快速地獲取、清洗、探索和建模數據。
通過閱讀本書,你會明白為什麼命令行是一種靈活、可伸縮、易擴展的技術。即使你已經能夠使用Python或R得心應手地處理數據,利用命令行也將大大改進你的數據科學工作流。
《命令行中的數據科學》集實用性和先進性於一身,為數據分析人員使用命令行這個靈活的工具提供瞭重要參考。作者講解瞭眾多實用的命令行工具,以及如何使用它們高效地獲取、清洗、探索和建模數據。論你使用Windows、OS X,還是Linux,都可以安裝包含80多個命令行工具的“數據科學工具箱”,迅速建立自己的數據分析環境。論你是否已經習慣於使用Python或R語言,都能夠通過本書體會到使用命令行的快捷、靈活與伸縮自如。
Jeroen Janssens,愛思唯爾(世界領先的科技及醫學齣版公司)首席數據科學傢,曾是紐約YPlan公司高級數據科學傢。專門從事機器學習、異常檢測和數據可視化。在荷蘭馬斯特裏赫特大學獲得人工智能碩士學位,在荷蘭蒂爾堡大學獲得機器學習博士學位。他熱衷於創建數據科學的開源工具。
王曉偉,畢業於國防科學技術大學,獲計算機科學與技術專業博士學位。研究興趣為海量數據管理與挖掘。
劉峰,百度LBS位置大數據部資深研發工程師,新加坡南洋理工大學計算機工程係博士,研究領域包括機器學習、神經網絡、數據挖掘等。2010年加入百度,主要從事大數據分析和挖掘方麵的工作,近年來專注於網絡定位、智能交通等LBS大數據的挖掘和機器學習應用。
★“命令行體現瞭Unix‘簡單工具’的理念,即每個工具完成一項工作,然後巧妙地連接在一起。Jeroen很專業地討論瞭怎樣將這個理念引入數據科學工作,展示瞭為什麼命令行不僅能夠進行簡單的文件輸入/輸齣,還是數據操作、探索,甚至建模的利器。”
——Chris H. Wiggins,《紐約時報》首席數據科學傢,哥倫比亞大學應用物理學與應用數學係副教授
★“這本書講解瞭如何將常見的數據科學任務集成到一個連貫的工作流,涵蓋瞭分解問題和組閤方案的策略。”
——John D. Cook,知名應用數學、統計及軟件開發谘詢顧問
數據科學是個激動人心卻又非常年輕的領域。不幸的是,許多個人和公司,總是認為需要利用新技術纔能解決數據科學提齣的問題。實際上,正如本書所揭示的,許多問題使用命令行就能解決,而且有時候效率要高得多。
大約5 年前,在攻讀博士學位期間,我逐步從使用微軟Windows 轉為使用GUN/Linux。剛開始我有點謹小慎微,因此同時安裝瞭這兩個操作係統(也就是雙係統啓動)。後來,在這兩個係統之間切換的需求越來越少,有時我甚至對Arch Linux 修修補補,能從零開始自己定製操作係統。這時能用的隻有命令行,而且想做什麼完全隨心所欲。很快,我就對使用命令行得心應手。最終,由於業餘時間越來越寶貴,我決定使用名為Ubuntu 的GNU/Linux 發行版,因為它易於使用並且有龐大的社區。盡管如此,命令行仍然是我完成絕大部分工作的不二選擇。
實際上,我後來認識到,命令行不單可以用於安裝軟件、配置係統以及搜索文件。於是我開始學習諸如cut、sort 和sed 這些命令行工具。這些工具都是將數據作為輸入,對數據進行處理,然後打印結果。Ubuntu 自帶瞭相當多這樣的工具。當明白可以將這些小工具結閤起來使用時,我就對它入迷瞭。
當我拿到博士學位,成為一名數據科學傢時,我想充分利用這種方法來做數據科學工作。
幸虧有幾個新的開源命令行工具,包括scrape、jq 和json2csv,我甚至能夠使用命令行來完成抓取網站以及處理大量JSON 數據這樣的任務。2013 年9 月,我寫瞭一篇名為“數據科學的7 個命令行工具”的博客文章(http://jeroenjanssens.com/2013/09/19/seven-commandline-tools-for-data-science.html)。讓我吃驚的是,這篇文章獲得很大反響。後來許多人嚮我推薦其他命令行工具,於是我開始考慮是否可以將這篇文章擴充成書。令人高興的是,10個月之後,在許多纔華橫溢的人的幫助下(參見“緻謝”),本書得以付梓。
分享這段個人經曆不僅是想介紹本書的由來,更是希望你知道我也是需要學習命令行的。使用命令行與使用圖形化用戶界麵迥然不同,剛開始可能是令人生畏的。但是,既然我能夠學會它,你當然也沒問題。不管你目前使用的是什麼操作係統,也不管你現在是以什麼方式做數據科學的工作,讀完本書,你也能夠利用命令行的強大能力。即使你已經熟悉命令行,或者甚至已經打算學習shell 腳本,你仍然可能在書中發現一些有趣技巧或命令行工具,能用於未來的數據科學項目。
從本書可以學到的
書中將對大量數據進行獲取、清洗、探索以及建模。我們不會過多介紹如何完成這些數據科學任務,因為對於諸如應該何時及用什麼進行統計檢驗,或者怎樣纔能將數據可視化做到最好,很容易找到大量參考資料。本書緻力於實用性,旨在通過教你用命令行執行數據科學任務,使你更加高效和多産。
盡管書中討論瞭80 多個命令行工具,但這些工具本身並不是最重要的。有些命令行工具存在已久,有些則是新近齣現,並且可能最終會被更好的工具所取代。甚至在你閱讀本書的時候,有的命令行工具正在創建之中。在過去的10 個月裏,我就已經發現瞭許多奇妙的命令行工具。遺憾的是,有的工具被發現的時間太晚,無法包含在本書中。總之,命令行工具的新陳代謝是常態。
用工具、管道和數據進行工作的思想纔是最重要的。多數命令行工具隻做一項任務,並且做得很好。這符閤Unix 的理念,這種理念在書中許多地方都有體現。一旦熟悉瞭命令行,並且學會瞭如何將命令行工具結閤起來,你就學會瞭一項非常寶貴的技能。如果還能創建新的工具,那你就齣類拔萃瞭。
……
命令行中的數據科學 下載 mobi pdf epub txt 電子書 格式 2024
命令行中的數據科學 下載 mobi epub pdf 電子書現在計算機書的書價有點誇裝瞭,這本100多頁竟然定價快50,要不是搞活動,估計不會買瞭...
評分老公一直在京東買書,買瞭有2韆瞭吧
評分正版,內容閤適
評分很好很不錯,很好很不錯
評分挺不錯的吧,就是圖靈的書有點貴
評分做偏運維的事情,但並不想把自己局限在內,敗瞭這本書用來與自己已有的知識體係相互印證,擴展一下視野的。這是一本比較實用的書,很多思路和內容並不僅對狹義的數據處理有用。
評分《煩惱都是自找的》內容特色如下:
評分中肯。
評分數據關聯是數據庫中存在的一類重要的可被發現的知識。若兩個或多個變量的取值之間存在某種規律性,就稱為關聯。關聯可分為簡單關聯、時序關聯、因果關聯。關聯分析的目的是找齣數據庫中隱藏的關聯網。有時並不知道數據庫中數據的關聯函數,即使知道也是不確定的,因此關聯分析生成的規則帶有可信度。關聯規則挖掘發現大量數據中項集之間有趣的關聯或相關聯係。Agrawal等於1993年首先提齣瞭挖掘顧客交易數據庫中項集間的關聯規則問題,以後諸多的研究人員對關聯規則的挖掘問題進行瞭大量的研究。他們的工作包括對原有的算法進行優化,如引入隨機采樣、並行的思想等,以提高算法挖掘規則的效率;對關聯規則的應用進行推廣。關聯規則挖掘在數據挖掘中是一個重要的課題,最近幾年已被業界所廣泛研究。
命令行中的數據科學 mobi epub pdf txt 電子書 格式下載 2024