发表于2024-11-21
机器学习是本次人工智能热潮的核心技术。引起轰动的应用如AlphaGo等都可以看到机器学习的身影。目前,机器学习理论纷繁复杂,算法形式花样百出。人们一直在疑惑,机器学习,特别是其中的深度学习的本质到底是什么?
作者积二十年研究之力,将各种学习理论融于一体,提出了五条学习公理,据此推导出了常见的学习算法,包括深度学习。如果想要知道机器学习的本质,快速理清各种学习算法之间的关系,《机器学习:从公理到算法(中国计算机学会学术著作丛书)》是一条不容错过的终南捷径。
《机器学习:从公理到算法(中国计算机学会学术著作丛书)》是一本基于公理研究学习算法的书。共17章,由两部分组成。第一部分是机器学习公理以及部分理论演绎,包括第1、2、6、8章,论述学习公理以及相应的聚类、分类理论。第二部分关注如何从公理推出经典学习算法,包括单类、多类和多源问题。第3~5章为单类问题,分别论述密度估计、回归和单类数据降维。第7、9~16章为多类问题,包括聚类、神经网络、K近邻、支持向量机、Logistic回归、贝叶斯分类、决策树、多类降维与升维等经典算法。最后第17章研究了多源数据学习问题。
《机器学习:从公理到算法(中国计算机学会学术著作丛书)》可以作为高等院校计算机、自动化、数学、统计学、人工智能及相关专业的研究生教材,也可以供机器学习的爱好者参考。
于剑,北京交通大学计算机学院教授,博士生导师,交通数据分析与挖掘北京市重点实验室主任,先后获得北京大学数学专业本科、硕士、博士,中国人工智能学会机器学习专委会副主任,中国计算机学会人工智能与模式识别专委会秘书长,承担多项国家自然科学基金项目,发表多篇学术论文,包括TPAMI、CVPR 等。
第1章引言1
11机器学习的目的:从数据到知识1
12机器学习的基本框架2
121数据集合与对象特性表示3
122学习判据4
123学习算法5
13机器学习思想简论5
延伸阅读7
习题8
参考文献9
第2章归类理论11
21类表示公理13
22归类公理17
23归类结果分类20
24归类方法设计准则22
241类一致性准则23
242类紧致性准则23
243类分离性准则25
244奥卡姆剃刀准则25
讨论27
延伸阅读29
习题30
参考文献31
第3章密度估计33
31密度估计的参数方法33
311最大似然估计33
312贝叶斯估计35
32密度估计的非参数方法39
321直方图39
322核密度估计39
323K近邻密度估计法40
延伸阅读40
习题41
参考文献41
第4章回归43
41线性回归43
42岭回归47
43Lasso回归48
讨论51
习题52
参考文献52
第5章单类数据降维53
51主成分分析54
52非负矩阵分解56
53字典学习与稀疏表示57
54局部线性嵌入59
55典型关联分析62
56多维度尺度分析与等距映射63
讨论65
习题66
参考文献66
第6章聚类理论69
61聚类问题表示及相关定义69
62聚类算法设计准则70
621类紧致性准则和聚类不等式70
622类分离性准则和重合类非稳定假设72
623类一致性准则和迭代型聚类算法73
63聚类有效性73
631外部方法73
632内蕴方法75
延伸阅读76
习题77
参考文献77
第7章聚类算法81
71样例理论:层次聚类算法81
72原型理论:点原型聚类算法83
721C均值算法84
722模糊C均值86
73基于密度估计的聚类算法88
731基于参数密度估计的聚类算法88
732基于无参数密度估计的聚类算法97
延伸阅读106
习题107
参考文献108
第8章分类理论111
81分类及相关定义111
82从归类理论到经典分类理论112
821PAC理论113
822统计机器学习理论115
83分类测试公理118
讨论119
习题119
参考文献120
第9章基于单类的分类算法:神经网络121
91分类问题的回归表示121
92人工神经网络122
921人工神经网络相关介绍122
922前馈神经网络124
93从参数密度估计到受限玻耳兹曼机129
94深度学习131
941自编码器132
942卷积神经网络132
讨论133
习题134
参考文献134
第10章K近邻分类模型137
101K近邻算法138
1011K近邻算法问题表示138
1012K近邻分类算法139
1013K近邻分类算法的理论错误率140
102距离加权最近邻算法141
103K近邻算法加速策略142
104kd树143
105K近邻算法中的参数问题144
延伸阅读145
习题145
参考文献145
第11章线性分类模型147
111判别函数和判别模型147
112线性判别函数148
113线性感知机算法151
1131感知机数据表示151
1132感知机算法的归类判据152
1133感知机分类算法153
114支持向量机156
1141线性可分支持向量机156
1142近似线性可分支持向量机159
1143多类分类问题162
讨论164
习题165
参考文献166
第12章对数线性分类模型167
121Softmax回归167
122Logistic回归170
讨论172
习题173
参考文献173
第13章贝叶斯决策175
131贝叶斯分类器175
132朴素贝叶斯分类176
1321最大似然估计178
1322贝叶斯估计181
133最小化风险分类183
134效用最大化分类185
讨论185
习题186
参考文献186
第14章决策树187
141决策树的类表示187
142信息增益与ID3算法192
143增益比率与C45算法194
144Gini指数与CART算法195
145决策树的剪枝196
讨论197
习题197
参考文献198
第15章多类数据降维199
151有监督特征选择模型199
1511过滤式特征选择200
1512包裹式特征选择201
1513嵌入式特征选择201
152有监督特征提取模型202
1521线性判别分析202
1522二分类线性判别分析问题202
1523二分类线性判别分析203
1524二分类线性判别分析优化算法205
1525多分类线性判别分析205
延伸阅读207
习题207
参考文献207
第16章多类数据升维:核方法209
161核方法209
162非线性支持向量机210
1621特征空间210
1622核函数210
1623常用核函数212
1624非线性支持向量机212
163多核方法213
讨论215
习题215
参考文献216
第17章多源数据学习217
171多源数据学习的分类217
172单类多源数据学习217
1721完整视角下的单类多源数据学习218
1722不完整视角下的单类多源数据学习220
173多类多源数据学习221
174多源数据学习中的基本假设222
讨论222
习题223
参考文献223
后记225
索引229
第 1章引言
好好学习,天天向上。 ——毛泽东, 1951年题词
大数据时代,人类收集、存储、传输、管理数据的能力日益提高,各行各业已经积累了大量的数据资源,如著名的 Nature杂志于 2008年 9月出版了一期大数据专刊 [1],列举了生物信息、交通运输、金融、互联网等领域的大数据应用。如何有效分析数据并得到有用信息甚至知识成为人们关注的焦点。人们寄希望于智能数据分析来完成该项任务。机器学习是智能数据分析技术的核心理论。 Science杂志于 2015年 7月组织了一个人工智能专题 [2],其中有关机器学习的内容依然占据了重要的部分。本章将讨论机器学习的基本目的、基本框架、思想发展以及未来走向。
1.1机器学习的目的:从数据到知识
人类最重要的一项能力是能够从过去的经验中学习,并形成知识。千百年来,人类不断从学习中积累知识,为人类文明打下了坚实的基础。“学习”是人与生俱来的基本能力,是人类智能( human intelligence)形成的必要条件。自 2000年以来,随着互联网技术的普及,积累的数据已经超过了人类个体处理的极限,以往人类自己亲自处理数据形成知识的模式已经到了必须改变的地步,人类必须借助于计算机才能处理大数据,更直白地说,我们希望计算机可以像人一样从数据中学到知识。
由此,如何利用计算机从大数据中学到知识成为人工智能研究的热点。“机器学习”(machine learning)是从数据中提取知识的关键技术。其初衷是让计算机具备与人类相似的学习能力。迄今为止,人们尚不知道如何使计算机具有与人类相媲美的学习能力。然而,每年都有大量新的针对特定任务的机器学习算法涌现,帮助人们发现完成这些特定任务的新知识(有时也许仅仅是隐性新知识)。对机器学习的研究不仅已经为人们提供了许多前所未有的应用服务(如信息搜索、机器翻译、语音识别、无人驾驶等),改善了人们的生活,而且也帮助人们开辟了许多新的学科领域,如计算金融学、计算广告学、计算生物学、计算社会学、计算历史学等,为人类理解这个世界提供了新的工具和视角。可以想见 ,作为从数据中提取知识的工具,机器学习在未来还会帮助人们进一步开拓新的应用和新的学科。
机器学习存在很多不同的定义,常用的有三个。第一个常用的机器学习定义是“计算机系统能够利用经验提高自身的性能”,更加形式化的论述可见文献 [3]。机器学习名著《统计学习理论的本质》给出了机器学习的第二个常见定义,“学习就是一个基于经验数据的函数估计问题” [4]。在《统计学习基础》这本书的序言里给出了第三个常见的机器学习定义,“提取重要模式、趋势,并理解数据,即从数据中学习” [11]。这三个常见定义各有侧重:第一个聚焦学习效果,第二个的亮点是给出了可操作的学习定义,第三个突出了学习任务的分类。但其共同点是强调了经验或者数据的重要性,即学习需要经验或者数据。注意到提高自身性能需要知识,函数、模式、趋势显然自身是知识,因此,这三个常见的定义也都强调了从经验中提取知识,这意味着这三种定义都认可机器学习提供了从数据中提取知识的方法。众所周知,大数据时代的特点是“信息泛滥成灾但知识依然匮乏”。可以预料,能自动从数据中学到知识的机器学习必将在大数据时代扮演重要的角色。
那么如何构建一个机器学习任务的基本框架呢?
1.2机器学习的基本框架
考虑到我们希望用机器学习来代替人学习知识,因此,在研究机器学习以前,先回顾一下人类如何学习知识是有益的。对于人来说,要完成一个具体的学习任务,需要学习材料、学习方法以及学习效果评估方法。如学习英语,需要英语课本、英语磁带或者录音等学习材料,明确学习方法是背诵和练习,告知学习效果评估方法是英语评测考试。检测一个人英语学得好不好,就看其利用学习方法从学习材料得到的英语知识是否能通过评测考试。机器学习要完成一个学习任务,也需要解决这三方面的问题,并通过预定的测试。
对应于人类使用的学习材料,机器学习完成一个学习任务需要的学习材料,一般用描述对象的数据集合来表示,有时也用经验来表示。对应于人类完成学习任务的学习方法,机器学习完成一个学习任务需要的学习方法,一般用学习算法来表示。对应于人类完成一个学习任务的学习效果现场评估方法(如老师需要时时观察课堂气氛和学生的注意力情况),机器学习完成一个学习任务也需要对学习效果进行即时评估,一般用学习判据来表示。对于机器学习来说,用来描述数据对象的数据集合对最终学习任务的完成状况有重要影响,用来指导学习算法设计的学习判据有时也用来评估学习算法的效果,但一般机器学习算法性能的标准评估会不同于学习判据,正如人学习的学习效果即时评估方式与最终的评估方式一般也不同。对于机器学习来说,通常也会有特定的测试指标,如正确率,学习速度等。
可以用一个具体的机器学习任务来说明。给定一个手写体数字字符数据集合,希望机器能够通过这些给定的手写体数字字符,学到正确识别手写数字字符的知识。显然,学习材料是手写体数字字符数据集,学习算法是字符识别算法,学习判据可以是识别正确率,也可以是其他有助于提高识别正确率的指标。
数据集合、学习判据、学习算法对于任何学习任务都是需要讨论的对象。数据集合的不同表示,影响学习判据与学习算法的设计。学习判据与学习算法的设计密切相关,下面分别讨论。
1.2.1数据集合与对象特性表示
对于一个学习任务来说,我们希望学到特定对象集合的特定知识。无论何种学习任务,学到的知识通常是与这个世界上的对象相关。通过学到的知识,可以对这个世界上的对象有更好的描述,甚至可以预测其具有某种性质、关系或者行为。为此,学习算法需要这些对象的特性信息,这些信息可以客观观测,即关于特定对象的特性信息集合,该集合一般称为对象特性表示,是学习任务作为学习材料的数据集合的组成部分。理论上,用来描述对象的数据集合的表示包括对象特性输入表示、对象特性输出表示。
显然,对象特性输入表示是我们能够得到的对象的观测描述,对象特性输出表示是我们学习得到的对象的特性描述。需要指出的是,对象的特性输入表示或者说对象的输入特征一定要与学习任务相关。根据丑小鸭定理( Ugly Duckling Theorem)[5],不存在独立于问题而普遍适用的特征表示,特征的有效与否是问题依赖的。丑小鸭定理是由 Satosi Watanabe于 1969年提出的,其内容可表述为“如果选定的特征不合理,那么世界上所有事物之间的相似程度都一样,丑小鸭与白天鹅之间的区别和两只白天鹅之间的区别一样大”。该定理表明在没有给定任何假设的情况下,不存在普适的特征表示;相似性的度量是特征依赖的,是主观的、有偏置的,不存在客观的相似性度量标准。因此,对于任何机器学习任务来说,得到与学习任务匹配的特征表示是学习任务成功的首要条件。对于机器学习来说,一般假设对象特征已经给定,特别是对象特性输入表示。
对于对象特性输入表示,通常有三种表示方式。一种是向量表示,对于每个对象,可以相对独立地观察其特有的一些特征。这些特征组成该对象的一个描述,并代表该对象。第二种表示是网络表示,对于每个对象,由其与其他对象的关系来描述,简单说来,观察得到的是对象之间的彼此关系。第三种是混合表示 ,对于每个对象,其向量表示和网络表示同时存在。
不论对于人还是机器,能够提供学习或者训练的对象总是有限的。不妨假设有 N个对象,对象集合为 O = {o1,o2, ··· ,oN },其中 ok表示第 k个对象。其对应的对象特性输入表示用 X = {x1,x2, ··· ,xN }来表示,其中 xk表示对象 ok的特性输入表示。当每个对象有向量表示时, xk可以表示为 xk =[x1k,x2k, ··· ,xpk]T。因此,对象特性输入表示 X可以用矩阵 [xτk]p×N来表示,其中 p表示对象输入特征的维数, xτk表示 ok的第 τ个输入特征值,这些特征值可以是名词性属性值,也可以是连续性属性值。
如果对象特性输入表示 X存在网络表示,即 X可以用矩阵 [Nkl]N×N来表示,其中 Nkl表示对象 ok与对象 ol的网络关系。如果是相似性关系,则对象特性输入表示 X为相似性矩阵 S(X)=[skl]N×N,其中 skl表示对象 ok与对象 ol的相似性。通常, skl越大表明对象 ok与对象 ol的相似性越大。因此,对象 ok可以由行向量 [sk1,sk2, ··· ,skN ]表示。如果是相异性关系,则对象特性输入表示 X为相异性矩阵 D(X)=[Dkl]N×N,其中 Dkl表示对象 ok与对象 o1的相异性。类似的,Dkl越大表明对象 ok与对象 ol的相异性越大。因此,对象 ok可以由行向量 [Dk1,Dk2, ··· ,DkN ]表示。如果是相邻关系,对象特性输入表示 X为邻接性矩阵 A(X)=[akl]N×N,其中 akl表示对象 ok与对象 ol是否相邻,通常其取值为 0或者 1。
对应的对象特性输出表示用 Y = {y1,y2, ··· ,yN }来表示,其中 yk表示对象 ok的特性输出表示。具体的表示形式由学习算法决定,通常是对象特性输出表示 Y可以用矩阵 [yτk]d×N来表示,其中 d表示对象输出特征的维数, yτk表示 ok的第 τ个输出特征值,这些特征值通常是连续性属性值。
显然,除去对象特性输入、输出表示,数据集合还有其他部分,这些部分的表示与知识表示有关,通常依赖于知识表示。知识表示不同,学习算法的数据集合输入输出表示也会不同。一个容易想到的公开问题是,适合于机器学习的统一知识表示是否存在?如果存在,是何形式?现今的机器学习方法一般是针对具体的学习任务,设定具体的知识表示。因此,本章先不讨论学习算法的输入输出统一表示,这个问题留待第 2章讨论。
1.2.2学习判据
完成一个学习任务,需要一个判据作为选择学习到的知识好坏的评价标准。理论上,符合一个学习任务的具体化知识可以有很多。通常,如何从中选出最好的具体化知识表示是一个 NP难问题。因此,需要限定符合一个特定学习任务的具体化知识范围,适当减小知识假设空间的大小,减少学习算法的搜索空间。为了从限定的假设空间选择最优的知识表示,需要根据不同的学习要求来设定学习判据对搜索空间各个元素的不同分值。判据设定的准则有很多,理论上与学习任务相关,本书将在以后的章节中进行讨论。需要指出的是,有时学习判据也被称为目标函数。在本书中,对于这两个术语不再特意区别。
1.2.3学习算法
在学习判据给出了从知识表示空间搜索最优知识表示的打分函数之后,还需要设计好的优化方法,以便找出对应于打分函数达到最优的知识表示。此时
机器学习:从公理到算法(中国计算机学会学术著作丛书) 下载 mobi epub pdf txt 电子书 格式
机器学习:从公理到算法(中国计算机学会学术著作丛书) 下载 mobi pdf epub txt 电子书 格式 2024
机器学习:从公理到算法(中国计算机学会学术著作丛书) 下载 mobi epub pdf 电子书management Jingdong cus
评分吾消费京东商城数年,深知各产品琳琅满目。然,唯此宝物与众皆不同,为出淤泥之清莲。使吾为之动容,心驰神往,以至茶饭不思,寝食难安,辗转反侧无法忘怀。于是乎紧衣缩食,凑齐银两,倾吾之所有而能买。*之热心、快递员之殷切,无不让人感激涕零,可谓迅雷不及掩耳盗铃儿响叮当仁不让世界充满爱。待打开包裹之时,顿时金光四射,屋内升起七彩祥云,处处皆是祥和之气。吾惊讶之余甚是欣喜若狂,呜呼哀哉!此宝乃是天上物,人间又得几回求!遂沐浴更衣,焚香祷告后与人共赏此宝。人皆赞叹不已,故生此宝物款型及做工,超高性价比之慨,且赞吾独具慧眼与时尚品位。产品介绍果然句句实言,毫无夸大欺瞒之嫌。实乃大家之风范,忠义之商贾。
评分汉 语:我来打酱油。 英 语:it's none of my business .i come to buy some sauce. 德 语:ich bezogen, was ich kam zu einer soja-so?e. 法 语:je lis ce qui, j'en suis arriv une sauce de soja. 荷 兰 语:ik gerelateerd wat, kwam ik tot een sojasaus. 俄 语:я,касающихся того, что я пришел к соевым соусом. 西班牙语:relacionados con lo que yo, me vino a un salsa de soja. 意大利语:i relativi cosa, sono venuto a una salsa di soia. 日 本 语:私関连したどのような、私がして醤油. 希 腊 语:i σχετικ? ? τι ? ρθα σε μια σ? λτσα σ? για?. 汉 语:我来打酱油。 英 语:it's none of my bu
评分价格很实惠,宝贝质量挺好的,速度也快!包装看起来很好,包得很用心,很喜欢了,忠心地感谢你,让我买到了梦寐以求的宝贝,太感谢了!京东商城就是好,好,送货速度快,售后很满意,我将一如既往的支持京东商城。希望京东越来越好。加油
评分非常感谢京东商城给予的优质的服务,从仓储管理、物流配送等各方面都是做的非常好的。送货及时,配送员也非常的热情,有时候不方便收件的时候,也安排时间另行配送。同时京东商城在售后管理上也非常好的,以解客户忧患,排除万难。给予我们非常好的购物体验。
评分京东打优慧,商品也不贵。评价我也会,积分多回馈【14.5R买到的】
评分以解客户忧患,
评分汉 语:我来打酱油。 英 语:it's none of my business .i come to buy some sauce. 德 语:ich bezogen, was ich kam zu einer soja-so?e. 法 语:je lis ce qui, j'en suis arriv une sauce de soja. 荷 兰 语:ik gerelateerd wat, kwam ik tot een sojasaus. 俄 语:я,касающихся того, что я пришел к соевым соусом. 西班牙语:relacionados con lo que yo, me vino a un salsa de soja. 意大利语:i relativi cosa, sono venuto a una salsa di soia. 日 本 语:私関连したどのような、私がして醤油. 希 腊 语:i σχετικ? ? τι ? ρθα σε μια σ? λτσα σ? για?. 汉 语:我来打酱油。 英 语:it's none of my bu
评分Thank you very much for the excellent service provided by Jingdong mall, and it is very good to do in warehouse management, logistics, distribution and so on. Delivery in a timely manner, distribution staff is also very enthusiastic, and sometimes inconvenient to receive the time, but also arranged for time to be delivered. At the same time in the mall management Jingdong customer service is also very good, to solve customer suffering, overcome all difficulties. Give us a very good shopping experience.
机器学习:从公理到算法(中国计算机学会学术著作丛书) mobi epub pdf txt 电子书 格式下载 2024