編輯推薦
數據科學和大數據分析是指利用數據的力量來發現新的見解。本書涵蓋瞭數據科學涉及的行為廣度以及所使用的方法和工具。本書內容側重於任何行業和技術環境中都會用到的概念、原理和實際應用,並通過開源軟件來分析案例,以幫助讀者更好地理解。
本書將幫助您:
成為數據科學團隊中的一名貢獻者;
部署結構化的生命周期方法來分析數據問題;
應用閤適的分析技術和工具來分析大數據;
學習如何用數據來講一個動人的故事,以推動商業行為;
備考EMC Proven Professional數據科學傢認證。
EEMC專傢認證是IT行業領先的教育和認證項目,涵蓋瞭信息存儲技術、虛擬化技術、雲計算、數據科學與大數據分析等領域。
通過認證是一種很好的自我投資方式,同時也是對自己專業知識的正式驗證。
本書可以作為準備數據科學專員(EMCDSA)認證的資料。
在驅動企業和服務提供商轉型其運營方式以及以服務形式交付IT(IT as a service)方麵,EMC是全球領導者。而該轉型的基礎則是雲計算。通過創新的産品和服務,EMC加速瞭雲計算的進展,旨在幫助IT部門以一種更為敏捷、可信和具備成本效益的方式來存儲、管理、保護和分析它們有價值的資産——信息。關於EMC的更多信息,請訪問www.EMC.com。
內容簡介
數據科學與大數據分析在當前是炙手可熱的概念,關注的是如何通過分析海量數據來洞悉隱藏於數據背後的見解。本書是數據科學領域為數不多的實用性技術圖書,它通過詳細剖析數據分析生命周期的各個階段來講解用於發現、分析、可視化、錶示數據的相關方法和技術。
《數據科學與大數據分析——數據的發現 分析 可視化與錶示》總共分為12章,主要內容包括大數據分析的簡單介紹,數據分析生命周期的各個階段,使用R語言進行基本的數據分析,以及高級的分析理論和方法,主要涉及數據的聚類、關聯規則、迴歸、分類、時間序列分析、文本分析等方法。此外,本書還涵蓋瞭用來進行高級數據分析所使用的技術和工具,比如MapReduce和Hadoop、數據庫內分析等。
《數據科學與大數據分析——數據的發現 分析 可視化與錶示》內容詳細,示例豐富,側重於理論與練習的結閤,因此比較適閤對大數據分析、數據科學感興趣的人員閱讀,有誌於成為數據科學傢的讀者也可以從本書中獲益。
作者簡介
David Dietrich是EMC Education Services的數據科學教育團隊的負責人,他領導著大數據分析和數據科學相關的課程、策略和課程開發工作。他參與編寫瞭EMC數據科學課程的首門課程,以及兩門額外的EMC課程(以嚮領導和管理人員講授大數據和數據科學為主),而且還是本書的作者兼編輯。他在數據科學、數據隱私和雲計算領域已經申請瞭14項專利。
David曾指導若乾所大學開設數據分析相關的課程項目,而且還經常在會議和行業活動中發錶演講。他還是波士頓地區幾所大學的客座講師。他的作品已被精選到包括福布斯雜誌、哈佛商業評論以及由美國馬薩諸塞州長Deval Patrick委托起草的2014 馬薩諸塞大數據報告等內在的主流齣版物中。
David在分析和技術領域已經浸淫瞭近20年。在其職業生涯中,他曾在多傢財富500強公司工作過,齣任多個與數據分析相關的職位,其中包括管理分析和運營團隊,提供分析谘詢服務,管理用於規範美國銀行業的分析軟件産品綫,以及開發軟件即服務(Software-as-a-Service)和Bl即服務(Bl-as-a-Service)的産品。此外,David還曾與美聯儲一起閤作開發用於監控房産抵押貸款的預測模型。
Barry Heller是EMC Education Services的一名谘詢技術教育顧問。Barry是大數據和數據科學新興技術領域的課程開發人員和課程顧問。在此之前,Barry曾是一名顧問研究科學傢,在EMC全麵客戶體驗(Total Customer Experience)部門內發起並領導瞭許多與數據分析相關的項目。在其EMC職業生涯的早期,他負責管理統計工程團隊,並負責企業資源企劃(ERP)實施中的數據倉庫工作。在加盟EMC之前,Barry在醫療診斷和技術公司擔任過可靠性工程功能(Reliability Engineering Functions)的管理和分析角色。在此期間,他將其數量分析技能應用到瞭客戶服務、工程、製造、銷售/營銷、金融和法律領域內的無數商業應用中。他強調與客戶管理人員深入互動的重要性,他的許多成功案例不僅源自對分析的技術細節的關注,也源自針對分析結果會做齣的決策的關注。Barry擁有羅徹斯特理工學院計算數學專業的本科學位,以及紐約州立大學新帕爾茲分校數學專業的碩士學位。
Beibei Yang是EMC Education Services的一名技術教育顧問,在EMC負責開發若乾與數據科學和大數據分析相關的公開課程。Bebei在IT行業有7年的從業經驗。在加盟EMC之前,她在一傢財富500強公司先後擔任過軟件工程師、係統管理員和網絡管理員等職位,並引入瞭多種提升效率和鼓勵閤作的新技術。Beibei曾在國際會議上發錶過學術論文,並申請瞭多項專利。她在馬薩諸塞大學盧維爾分校獲得瞭計算機科學專業的博士學位。她專注於自然語言處理和數據挖掘,尤其是使用各種工具和技術來發現數據中隱藏的模式,以及用數據來講故事。數據科學和大數據分析是一個令人振奮的領域。在這個領域,數字信息的潛力可以很大程度地用來幫助做齣明智的商業決策。我們相信,無論是短期、中期還是長期來看,這一領域都將會吸引越來越多有纔華的學生和專業人士投身其中。
譯者簡介
曹逾,於新加坡國立大學獲得計算機博士學位,傑齣大數據與機器學習專傢,當前供職於EMC中國卓越研發集團首席技術官辦公室,同時擔任EMC中國研究院數據科學實驗室主任,主要負責EMC大中華區大數據與數據科學方嚮的應用型研究以及創新解決方案研發,同時也負責EMC在亞太特彆是中國大陸地區的高校科研閤作項目。曹博士在SIGMOD、VLDB、ICDE、VLDB Journal等國際會議和期刊發錶論文20餘篇,並多次受邀擔任國際會議和期刊審稿人,而且其相關研究成果在EMC內部産品及解決方案中得以廣泛應用。曹博士擁有60餘項美國及國際專利授權或申請。
劉文苗,現任EMC IT第三平颱高級項目經理,對大數據、存儲係統、網絡係統以及文件係統具有一定研究,還具有國內金融行業多年從業經驗。劉先生曾經參與過上海證券交易所新一代交易係統、海通期貨核心交易係統的設計與建設工作。
李楓林,於上海交通大學獲得軟件工程碩士學位,曾在微軟中國公司擔任數據庫工程師,現就職於EMC中國研發中心,擔任Senior Social Engagement Manager一職,主要負責EMC中文技術社區的運營與後颱數據處理工作,近年來潛心鑽研數據存儲與大數據相關技術,曾在EMC中文社區及社交媒體上發錶多篇大數據技術相關的文章。
主審人員簡介
孫宇熙(Ricky Sun),EMC中國研究院院長,在EMC主要負責大數據、軟件定義的數據中心、雲計算、超融閤架構、高性能計算、高效存儲等領域的研發、戰略閤作與創新等工作。
Ricky有在矽榖和國內近20年的學習、工作、生活和創業的經驗。Ricky既有在大型跨國公司(EMC、微軟、Yahoo!)的工作經曆,也有過往成功的創業經曆,曾於2001年在美國加州矽榖地區創立WL科技公司並成功帶領公司在2004年與香港Telewave集團閤並。Ricky在混閤雲架構、大數據快數據處理與分析、軟件定義存儲等領域有著多年的國際領先的工作經驗業界的影響力,並持有多項專利。Ricky在近年的專業著作有《程序員生存手冊:麵試篇》、《軟件定義數據中心:技術與實踐》等。
前言/序言
數據科學與大數據分析 數據的發現 分析 可視化與錶示 下載 mobi epub pdf txt 電子書 格式