发表于2024-11-21
AlphaGo与李世石的围棋大战激发了人们对人工智能是非的诸多争论。人工智能背后的工作原理深度学习跳入大众的视野。AlphaGo的大获全胜一定程度展示了深度学习在应用领域的成功,而语音识别正是深度学习取得显著成功的应用领域之一。
本书是首次以深度学习为主线介绍语音识别应用的书籍,对读者了解语音识别技术及其发展历程有重要的参考价值。
本书作者俞栋、邓力均是该领域的著名专家,他们是深度学习在应用领域取得突破性进展的推动者与实践者,他们在书中分享的研究成果一定程度上代表了本领域全新的研究进展;译者俞凯、钱彦 旻也是本领域的资深专家,并有众多实践成果。 对于从事此领域研究的读者来说,本书无疑有重要的参考价值。
《解析深度学习:语音识别实践》是首部介绍语音识别中深度学习技术细节的专著。全书首先概要介绍了传统语音识别理论和经典的深度神经网络核心算法。接着全面而深入地介绍了深度学习在语音识别中的应用,包括“深度神经网络-隐马尔可夫混合模型”的训练和优化,特征表示学习、模型融合、自适应,以及以循环神经网络为代表的若干先进深度学习技术。
《解析深度学习:语音识别实践》适合有一定机器学习或语音识别基础的学生、研究者或从业者阅读,所有的算法及技术细节都提供了详尽的参考文献,给出了深度学习在语音识别中应用的全景。
俞栋
1998 年加入微软公司,现任微软研究院首席研究员、浙江大学兼职教授和中科大客座教授。他是语音识别和深度学习方向的资深专家,出版了两本专著,发表了150 多篇论文,是近60 项专利的发明人及有广泛影响力的深度学习开源软件CNTK 的发起人和主要作者之一。他在基于深度学习的语音识别技术上的工作带来了语音识别研究方向的转变,极大地推动了语音识别领域的发展,并获得2013 年IEEE 信号处理协会佳论文奖。俞栋博士现担任IEEE 语音语言处理专业委员会委员,曾担任IEEE/ACM音频、语音及语言处理汇刊、IEEE 信号处理杂志等期刊的编委。
邓力
世界著名人工智能、机器学习和语音语言信号处理专家,现任微软首席人工智能科学家和深度学习技术中心研究经理。他在美国威斯康星大学先后获硕士和博士学位,然后在加拿大滑铁卢大学任教获得终身正教授。其间,他还任麻省理工学院研究职位。1999 年加入微软研究院历任数职,并在2014 年初创办深度学习技术中心,主持微软公司和研究院的人工智能和深度学习领域的技术创新。 邓立博士的研究方向包括自动语音与说话者识别、口语识别与理解、语音–语音翻译、机器翻译、语言模式、统计方法与机器学习、听觉和其他生物信息处理、深层结构学习、类脑机器智能、图像语言多模态深度学习,商业大数据深度分析等。他在上述领域做出了重大贡献,是ASA(美国声学学会)会士、IEEE(美国电气和电子工程师协会)会士和理事、ISCA(国际语音通信协会)会士,并凭借在深度学习与自动语音识别方向做出的杰出贡献荣获2015年度IEEE 信号处理技术成就奖。同时,他也曾在高端杂志和会议上发表过与上述领域相关的300 余篇学术论文,出版过5 部著作,发明及合作发明了超过70 多项专利。邓立博士还担任过IEEE 信号处理杂志和《音频、语音与语言处理学报》(IEEE/ACMTransactions on Audio, Speech & anguage Processing)的主编。
俞凯
IEEE 高级会员,上海交通大学计算机科学与工程系特别研究员。清华大学本科、硕士,英国剑桥大学工程系博士。长期从事智能语音及语言处理、人机交互、模式识别及机器学习的研究和产业化工作。他是中组部“千人计划”(青年项目)获得者,国家自然科学基金委优秀青年科学基金获得者,上海市“东方学者”特聘教授;作为共同创始人和首席科学家创立“苏州思必驰信息科技有限公司”。现任中国声学学会语音语言、听觉及音乐分会执委会委员,中国计算机学会人机交互专委会委员,中国语音产业联盟技术工作组副组长。他的研究兴趣涉及语音识别、语音合成、口语理解、对话系统、认知型人机交互等智能语音语言处理技术的多个核心技术领域,在本领域的一流国际期刊和会议上发表论文80 余篇,申请专利10 余项,取得了一系列研究、工程和产业化成果。在InterSpeech 及IEEE Spoken Language Processing 等国际会议上获得3 篇国际会议优秀论文奖,获得国际语音通信联盟(ISCA)2013 年颁发的2008—2012 Computer Speech and Language 优论文奖。受邀担任InterSpeech 2009 语音识别领域主席、EUSIPCO 2011/EUSIPCO 2014 语音处理领域主席、InterSpeech 2014 口语对话系统领域主席等。他负责搭建或参与搭建的大规模连续语音识别系统,曾获得美国国家标准局(NIST)和美国国防部内部评测冠军;作为核心技术人员,负责设计并实现的认知型统计对话系统原型,在CMU 组织的2010 年对话系统国际挑战赛上获得了可控测试的冠军。作为项目负责人或Co-PI,他主持了欧盟第7 框架PARLANCE、国家自然科学基金委、上海市教委、经信委,以及美国通用公司、苏州思必驰信息科技有限公司的一系列科研及产业化项目。2014 年,因在智能语音技术产业化方面的贡献,获得中国人工智能学会颁发的“吴文俊人工智能科学技术奖”。
钱彦旻
上海交通大学计算机科学与工程系助理研究员,博士。分别在2007 年6 月和2013 年1 月于华中科技大学和清华大学获得工学学士和工学博士学位。2013 年4 月起,任上海交通大学计算机科与工程系理研究员。同时从2015 年1 月至2015 年12 月,在英国剑桥大学工程系机器智能实验室语音组进行访问,作为项目研究员与语音识别领域的著名科学家Phil Woodland 教授和Mark Gales 教授开展合作研究。现为IEEE、ISCA 会员,同时也是国际开源项目Kaldi 语音识别工具包开发的项目组创始成员之一。此外,担任IEEE Transactions on Audio, Speech, and Language Processing、SpeechCommunication、ICASSP、Interspeech、ASRU 等国际期刊和会议的审稿人。目前在国内外学术刊物和会议上发表学术论文50 余篇,Google Scholar 总引用数近1000 次。其中包括在语音识别领域优秀国际会议ICASSP、InterSpeech 和ASRU 上发表论文30 余篇,申请国家专利共3 项,已授权1 项。2008 年获科技奥运先进集体奖,2014 年获中国人工智能学会颁发的“吴文俊人工智能科学技术奖进步奖”。曾作为负责人和主要参与者参加了包括英国EPSRC、国家自然科学基金、国家863 等多个项目。目前的研究领域包括:语音识别、说话人和语种识别、自然语言理解、深度学习建模、多媒体信号处理等。
作者及译者简介iv
译者序vii
序ix
前言xi
术语缩写xxiii
符号xxvii
1 简介1
1.1 自动语音识别:更好的沟通之桥 1
1.1.1 人类之间的交流 2
1.1.2 人机交流 2
1.2 语音识别系统的基本结构 4
1.3 全书结构 6
1.3.1 第一部分:传统声学模型6
1.3.2 第二部分:深度神经网络6
1.3.3 第三部分:语音识别中的DNN-HMM 混合系统7
1.3.4 第四部分:深度神经网络中的特征表示学习 7
1.3.5 第五部分:高级的深度模型 7
第一部分传统声学模型9
2 混合高斯模型10
2.1 随机变量10
2.2 高斯分布和混合高斯随机变量11
2.3 参数估计13
2.4 采用混合高斯分布对语音特征建模 15
3 隐马尔可夫模型及其变体17
3.1 介绍17
3.2 马尔可夫链19
3.3 序列与模型 20
3.3.1 隐马尔可夫模型的性质21
3.3.2 隐马尔可夫模型的仿真22
3.3.3 隐马尔可夫模型似然度的计算22
3.3.4 计算似然度的高效算法24
3.3.5 前向与后向递归式的证明25
3.4 期望zui大化算法及其在学习HMM 参数中的应用 26
3.4.1 期望zui大化算法介绍 26
3.4.2 使用EM 算法来学习HMM 参数——Baum-Welch 算法 28
3.5 用于解码HMM 状态序列的维特比算法32
3.5.1 动态规划和维特比算法32
3.5.2 用于解码HMM 状态的动态规划算法33
3.6 隐马尔可夫模型和生成语音识别模型的变体35
3.6.1 用于语音识别的GMM-HMM 模型 36
3.6.2 基于轨迹和隐藏动态模型的语音建模和识别37
3.6.3 使用生成模型HMM 及其变体解决语音识别问题 38
第二部分深度神经网络41
4 深度神经网络42
4.1 深度神经网络框架42
4.2 使用误差反向传播来进行参数训练 45
4.2.1 训练准则 45
4.2.2 训练算法46
4.3 实际应用50
4.3.1 数据预处理51
4.3.2 模型初始化52
4.3.3 权重衰减52
4.3.4 丢弃法 53
4.3.5 批量块大小的选择55
4.3.6 取样随机化56
4.3.7 惯性系数 57
4.3.8 学习率和停止准则58
4.3.9 网络结构59
4.3.10 可复现性与可重启性 59
5 高级模型初始化技术61
5.1 受限玻尔兹曼机61
5.1.1 受限玻尔兹曼机的属性63
5.1.2 受限玻尔兹曼机参数学习66
5.2 深度置信网络预训练 69
5.3 降噪自动编码器预训练71
5.4 鉴别性预训练74
5.5 混合预训练75
5.6 采用丢弃法的预训练 75
第三部分语音识别中的深度神经网络–隐马尔可夫混合模型77
6 深度神经网络–隐马尔可夫模型混合系统78
6.1 DNN-HMM 混合系统 78
6.1.1 结构78
6.1.2 用CD-DNN-HMM 解码80
6.1.3 CD-DNN-HMM 训练过程81
6.1.4 上下文窗口的影响83
6.2 CD-DNN-HMM 的关键模块及分析 85
6.2.1 进行比较和分析的数据集和实验85
6.2.2 对单音素或者三音素的状态进行建模 87
6.2.3 越深越好88
6.2.4 利用相邻的语音帧89
6.2.5 预训练 90
6.2.6 训练数据的标注质量的影响 90
6.2.7 调整转移概率 91
6.3 基于KL 距离的隐马尔可夫模型91
7 训练和解码的加速93
7.1 训练加速93
7.1.1 使用多GPU 流水线反向传播94
7.1.2 异步随机梯度下降97
7.1.3 增广拉格朗日算法及乘子方向交替算法100
7.1.4 减小模型规模 101
7.1.5 其他方法102
7.2 加速解码103
7.2.1 并行计算103
7.2.2 稀疏网络105
7.2.3 低秩近似107
7.2.4 用大尺寸DNN 训练小尺寸DNN108
7.2.5 多帧DNN 109
8 深度神经网络序列鉴别性训练111
8.1 序列鉴别性训练准则 111
8.1.1 zui大相互信息 112
8.1.2 增强型MMI 113
8.1.3 zui小音素错误/状态级zui小贝叶斯风险114
8.1.4 统一的公式115
8.2 具体实现中的考量116
8.2.1 词图产生116
8.2.2 词图补偿117
8.2.3 帧平滑 119
8.2.4 学习率调整119
8.2.5 训练准则选择 120
8.2.6 其他考量120
8.3 噪声对比估计 121
8.3.1 将概率密度估计问题转换为二分类设计问题121
8.3.2 拓展到未归一化的模型123
8.3.3 在深度学习网络训练中应用噪声对比估计算法 124
第四部分深度神经网络中的特征表示学习127
9 深度神经网络中的特征表示学习128
9.1 特征和分类器的联合学习128
9.2 特征层级129
9.3 使用随意输入特征的灵活性 133
9.4 特征的鲁棒性 134
9.4.1 对说话人变化的鲁棒性134
9.4.2 对环境变化的鲁棒性 135
9.5 对环境的鲁棒性137
9.5.1 对噪声的鲁棒性138
9.5.2 对语速变化的鲁棒性 140
9.6 缺乏严重信号失真情况下的推广能力141
10 深度神经网络和混合高斯模型的融合144
10.1 在GMM-HMM 系统中使用由DNN 衍生的特征144
10.1.1 使用Tandem 和瓶颈特征的GMM-HMM 模型144
10.1.2 DNN-HMM 混合系统与采用深度特征的GMM-HMM 系统的比较147
10.2 识别结果融合技术149
10.2.1 识别错误票选降低技术(ROVER) 149
10.2.2 分段条件随机场(SCARF) 151
10.2.3 zui小贝叶斯风险词图融合153
10.3 帧级别的声学分数融合153
10.4 多流语音识别 154
11 深度神经网络的自适应技术157
11.1 深度神经网络中的自适应问题157
11.2 线性变换159
11.2.1 线性输入网络.159
11.2.2 线性输出网络 159
11.3 线性隐层网络 161
11.4 保守训练162
11.4.1 L2 正则项163
11.4.2 KL 距离正则项163
11.4.3 减少每个说话人的模型开销 165
11.5 子空间方法167
11.5.1 通过主成分分析构建子空间 167
11.5.2 噪声感知、说话人感知及设备感知训练168
11.5.3 张量172
11.6 DNN 说话人自适应的效果172
11.6.1 基于KL 距离的正则化方法 173
11.6.2 说话人感知训练174
第五部分先进的深度学习模型177
12 深度神经网络中的表征共享和迁移178
12.1 多任务和迁移学习178
12.1.1 多任务学习 178
12.1.2 迁移学习180
12.2 多语言和跨语言语音识别180
12.2.1 基于Tandem 或瓶颈特征的跨语言语音识别181
12.2.2 共享隐层的多语言深度神经网络182
12.2.3 跨语言模型迁移185
12.3 语音识别中深度神经网络的多目标学习188
12.3.1 使用多任务学习的鲁棒语音识别188
12.3.2 使用多任务学习改善音素识别189
12.3.3 同时识别音素和字素(graphemes) 190
12.4 使用视听信息的鲁棒语音识别 190
13 循环神经网络及相关模型192
13.1 介绍192
13.2 基本循环神经网络中的状态-空间公式194
13.3 沿时反向传播学习算法195
13.3.1 zui小化目标函数 196
13.3.2 误差项的递归计算196
13.3.3 循环神经网络权重的更新197
13.4 一种用于学习循环神经网络的原始对偶技术199
13.4.1 循环神经网络学习的难点199
13.4.2 回声状态(Echo-State)性质及其充分条件 199
13.4.3 将循环神经网络的学习转化为带约束的优化问题 200
13.4.4 一种用于学习RNN 的原始对偶方法201
13.5 结合长短时记忆单元(LSTM)的循环神经网络203
13.5.1 动机与应用203
13.5.2 长短时记忆单元的神经元架构204
13.5.3 LSTM-RNN 的训练205
13.6 循环神经网络的对比分析205
13.6.1 信息流方向的对比:自上而下还是自下而上 206
13.6.2 信息表征的对比:集中式还是分布式208
13.6.3 解释能力的对比:隐含层推断还是端到端学习209
13.6.4 参数化方式的对比:吝啬参数集合还是大规模参数矩阵 209
13.6.5 模型学习方法的对比:变分推理还是梯度下降210
13.6.6 识别正确率的比较211
13.7 讨论212
14 计算型网络214
14.1 计算型网络214
14.2 前向计算215
14.3 模型训练 218
14.4 典型的计算节点222
14.4.1 无操作数的计算节点 223
14.4.2 含一个操作数的计算节点223
14.4.3 含两个操作数的计算节点228
14.4.4 用来计算统计量的计算节点类型235
14.5 卷积神经网络 236
14.6 循环连接 239
14.6.1 只在循环中一个接一个地处理样本240
14.6.2 同时处理多个句子242
14.6.3 创建任意的循环神经网络243
15 总结及未来研究方向245
15.1 路线图 245
15.1.1 语音识别中的深度神经网络启蒙245
15.1.2 深度神经网络训练和解码加速248
15.1.3 序列鉴别性训练248
15.1.4 特征处理249
15.1.5 自适应 250
15.1.6 多任务和迁移学习251
15.1.7 卷积神经网络 251
15.1.8 循环神经网络和长短时记忆神经网络251
15.1.9 其他深度模型 252
15.2 技术前沿和未来方向 252
15.2.1 技术前沿简析252
15.2.2 未来方向253
参考文献255?????? 解析深度学习:语音识别实践 下载 mobi epub pdf txt 电子书 格式
解析深度学习:语音识别实践 下载 mobi pdf epub txt 电子书 格式 2024
解析深度学习:语音识别实践 下载 mobi epub pdf 电子书买给亲爱的男盆友的,希望他能有用!
评分强化学习现在很流行,但书籍不多,这本帮助很大。
评分小部头的书才适合现在的阅读,讲的很简洁,深入度肯定不足
评分刚开始接触,感觉很有意思,希望能学点东西。
评分第5章讲述了JavaScript的历史、Node.js的原理、程序的链接、命令式和声明式编程的区别,以及作者十多年来使用各种编程语言的感受;
评分好不容易等到了。先看看。支持大刘!
评分买了一堆书,也不知道哪个是真正想买的,反正是凑满减券凑了好几本,京东营销做的不错
评分 评分理论介绍的很全面,就是不够深入,适合根据实际需要进行阅读
解析深度学习:语音识别实践 mobi epub pdf txt 电子书 格式下载 2024