內容簡介
《數據科學基礎(英文版)》是“大數據與計算機科學”係列教材之一,由國際著名計算機科學傢約翰·霍普剋羅夫特教授、阿夫裏姆·布魯姆教授和拉文德蘭·坎南教授共同撰寫。
《數據科學基礎(英文版)》包含瞭高維空間、奇異值分解、隨機行走和馬爾可夫鏈、機器學習、大數據問題的算法、聚類隨機圖等主要內容。全書極大部分的結論都有嚴格的證明,且從第2章開始,每章後麵均附有適量的練習題。
《數據科學基礎(英文版)》可作為計算機及其相關專業本科生或研究生的教材,也可供專業技術人員參考。
作者簡介
約翰·霍普剋羅夫特,曾獲得1986年圖靈奬、2005年電氣與電子工程師協會哈裏古德紀念奬、2007年計算研究協會傑齣服務奬、2009年計算機協會Karl V.Kartstrom傑齣教育傢奬、2010年電氣與電子工程師協會約翰馮諾依曼奬章,以及2016年中國友誼奬章,這是中國對外國人的認可。此外,中國科學院還將他任命為愛因斯坦講席教授。
阿夫裏姆·布魯姆,豐田工業大學芝加哥分校教授兼首席學術官,1996年擔任COLT'96程序委員會主席,2000年擔任FOCS'00程序委員會主席,2007年成為美國計算機協會研究員,2011年獲得計算機科學院赫伯特西濛教學奬。
拉文德蘭·坎南,印度班加羅爾微軟研究院首席研究員,曾任耶魯大學計算機科學係教授兼應用數學係教授、卡內基梅隆大學教授。1991年獲得由美國數學學會和數學規劃學會聯閤授予的離散數學福剋森奬,2011年獲得計算機協會高德納奬,2015年當選美國藝術與科學院院士。
目錄
1 Introduction
2 High-Dimensional Space
2.1 Introduction
2.2 The Law of Large Numbers
2.3 The Geometry of High Dimensions
2.4 Properties of the Unit Ball
2.4.1 Volume of the Unit Ball
2.4.2 Volume Near the Equator
2.5 Generating Points Uniformly at Random from a Ball
2.6 Gaussians in High Dimension
2.7 Random Projection and Johnson-Lindenstrauss Lemma
2.8 Separating Gaussians
2.9 Fitting a Spherical Gaussian to Data
2.10 Bibliographic Notes
2.11 Exercises
3 Best-Fit Subspaces and Singular Value Decomposition (SVD)
3.1 Introduction
3.2 Preliminaries
3.3 Singular Vectors
3.4 Singular Value Decomposition (SVD)
3.5 Best Rank-k Approximations
3.6 Left Singular Vectors
3.7 Power Method for Singular Value Decomposition
3.8 Singular Vectors and Eigenvectors
3.9 Applications of Singular Value Decomposition
3.9.1 Centering Data
3.9.2 Principal Component Analysis
3.9.3 Clustering a Mixture of Spherical Gaussians
3.9.4 Ranking Documents and Web Pages
3.9.5 An Application of SVD to a Discrete Optimization Problem
3.10 Bibliographic Notes
3.11 Exercises
4 Random Walks and Markov Chains
4.1 Stationary Distribution
4.2 Markov Chain Monte Carlo
4.2.1 Metropolis-Hasting Algorithm
4.2.2 Gibbs Sampling
4.3 Areas and Volumes
4.4 Convergence of Random Walks on Undirected Graphs
4.5 Electrical Networks and Random Walks
4.6 Random Walks on Undirected Graphs with Unit Edge Weights
4.7 Random Walks in Euclidean Space
4.8 The Web as a Markov Chain
4.9 Bibliographic Notes
4.10 Exercises
5 Machine Learning
5.1 Introduction
5.2 Overfitting and Uniform Convergence
5.3 Illustrative Examples and Occam's Razor
5.3.1 Learning Disjunctions
5.3.2 Occam's Razor
5.3.3 Application: Learning Decision Trees
5.4 Regularization: Penalizing Complexity
5.5 Online Learning and the Perceptron Algorithm
……
6 Algorithms for Massive Data Problems: Streaming, Sketching, and Sampling
7 Clustering
8 Random Graphs
9 Topic Models, Non-Negative Matrix Factorization, Hidden Markov Models, and Graphical Models
10 Other Topics
11 Wavelets
12 Appendices
References
Index
前言/序言
在構思一套新的計算機科學技術係列教材時,會有很多考慮。其一、計算機科學提供瞭一個係統建模、問題求解的新模式。計算機專業的本科畢業生應本能地將計算思維用於問題求解,因此,一套計算機科學技術係列教材也應將計算思維係統地貫穿於整套教材的編寫。其二、計算技術在推動社會、科技高速發展的同時,其自身也經曆著從以計算為中心到以數據和交互為中心的範式轉變。計算機專業的本科畢業生若能瞭解有關數據獲取,存儲,分析,利用的基本方法、技術、工具,定能在其擇業和職業發展中擁有更多的機會,一套麵嚮這一專業需求、圍繞數據思維設計的計算機科學技術係列教材就會受到廣大師生的歡迎。其三、在一個更加基礎的層麵,一套新的計算機科學技術係列教材應在重新審視本學科核心理論的基礎上,在分析數據科學、人工智能、密碼與信息安全、計算經濟學、甚至量子計算等交叉學科的基礎上,為本專業提供一個理論和數學基礎課程設計,以反應計算機學科及其交叉學科對算法、計算復雜性、概率與統計、綫性代數、矩陣分析、高等代數、組閤數學、博弈論等數學分支的依賴。
計算能力的提高不僅在加大計算機科學技術影響力的廣度,還在加速其影響力的深度。計算機教育界目前進行的“計算機+X”和“X+計算機”的討論旨在推動計算機專業建設,並及時反應這一影響的廣度和深度。我認為這一切都源於一個廣為接受的事實:計算機科學與技術是繼科學實驗和數學之後,推動人類社會和科技進步的第三股力量。正如科學實驗為自然科學提供瞭研究手段,數學為工程提供瞭建模方法,概率與統計為經濟學提供瞭工具,計算機科學與技術為自然科學、工程、經濟學提供瞭全新的研究手段、建模方法和工具。從一個高等教育工作者的角度看,這第三股力量驅動著老學科的改造和新專業的誕生。
數據科學基礎(英文版) [Foundations of Data Science] 下載 mobi epub pdf txt 電子書 格式
數據科學基礎(英文版) [Foundations of Data Science] 下載 mobi pdf epub txt 電子書 格式 2024
數據科學基礎(英文版) [Foundations of Data Science] mobi epub pdf txt 電子書 格式下載 2024