发表于2024-11-13
基本信息
原书名:Text Analytics with Python: A Practical Real-World Approach to Gaining Actionable Insights from Your Data
作者: (印)迪潘简·撒卡尔(Dipanjan Sarkar)
译者: 闫龙川 高德荃 李君婷
丛书名: 数据科学与工程技术丛书
出版社:机械工业出版社
ISBN:9787111593249
上架时间:2018-4-23
出版日期:2018 年4月
开本:16开
版次:1-1
所属分类:计算机
目录
译者序
前言
第1章自然语言基础
1��1自然语言
1��1��1什么是自然语言
1��1��2语言哲学
1��1��3语言习得和用法
1��2语言学
1��3语言句法和结构
1��3��1词
1��3��2短语
1��3��3从句
1��3��4语法
1��3��5语序类型学
1��4语言语义
1��4��1词汇语义关系
1��4��2语义网络和模型
1��4��3语义表示
1��5文本语料库
1��5��1文本语料库标注及使用
1��5��2热门的语料库
1��5��3访问文本语料库
1��6自然语言处理
1��6��1机器翻译
1��6��2语音识别系统
1��6��3问答系统
1��6��4语境识别与消解
1��6��5文本摘要
1��6��6文本分类
1��7文本分析
1��8小结
第2章Python语言回顾
2��1了解Python
2��1��1Python之禅
2��1��2应用:何时使用Python
2��1��3缺点:何时不用Python
2��1��4Python实现和版本
2��2安装和设置
2��2��1用哪个Python版本
2��2��2用哪个操作系统
2��2��3集成开发环境
2��2��4环境设置
2��2��5虚拟环境
2��3Python句法和结构
2��4数据结构和类型
2��4��1数值类型
2��4��2字符串
2��4��3列表
2��4��4集合
2��4��5字典
2��4��6元组
2��4��7文件
2��4��8杂项
2��5控制代码流
2��5��1条件结构
2��5��2循环结构
2��5��3处理异常
2��6函数编程
2��6��1函数
2��6��2递归函数
2��6��3匿名函数
2��6��4迭代器
2��6��5分析器
2��6��6生成器
2��6��7itertools和functools模块
2��7类
2��8使用文本
2��8��1字符串文字
2��8��2字符串操作和方法
2��9文本分析框架
2��10小结
第3章处理和理解文本
3��1文本切分
3��1��1句子切分
3��1��2词语切分
3��2文本规范化
3��2��1文本清洗
3��2��2文本切分
3��2��3删除特殊字符
3��2��4扩展缩写词
3��2��5大小写转换
3��2��6删除停用词
3��2��7词语校正
3��2��8词干提取
3��2��9词形还原
3��3理解文本句法和结构
3��3��1安装必要的依赖项
3��3��2机器学习重要概念
3��3��3词性标注
3��3��4浅层分析
3��3��5基于依存关系的分析
3��3��6基于成分结构的分析
3��4小结
第4章文本分类
4��1什么是文本分类
4��2自动文本分类
4��3文本分类的蓝图
4��4文本规范化处理
4��5特征提取
4��5��1词袋模型
4��5��2TF�睮DF模型
4��5��3高级词向量模型
4��6分类算法
4��6��1多项式朴素贝叶斯
4��6��2支持向量机
4��7评估分类模型
4��8建立一个多类分类系统
4��9应用
4��10小结
第5章文本摘要
5��1文本摘要和信息提取
5��2重要概念
5��2��1文档
5��2��2文本规范化
5��2��3特征提取
5��2��4特征矩阵
5��2��5奇异值分解
5��3文本规范化
5��4特征提取
5��5关键短语提取
5��5��1搭配
5��5��2基于权重标签的短语提取
5��6主题建模
5��6��1隐含语义索引
5��6��2隐含Dirichlet分布
5��6��3非负矩阵分解
5��6��4从产品评论中提取主题
5��7自动文档摘要
5��7��1隐含语义分析
5��7��2TextRank算法
5��7��3生成产品说明摘要
5��8小结
第6章文本相似度和聚类
6��1重要概念
6��1��1信息检索
6��1��2特征工程
6��1��3相似度测量
6��1��4无监督的机器学习算法
6��2文本规范化
6��3特征提取
6��4文本相似度
6��5词项相似度分析
6��5��1汉明距离
6��5��2曼哈顿距离
6��5��3欧几里得距离
6��5��4莱文斯坦编辑距离
6��5��5余弦距离和相似度
6��6文档相似度分析
6��6��1余弦相似度
6��6��2海灵格-巴塔恰亚距离
6��6��3Okapi BM25排名
6��7文档聚类
6��8佳影片聚类分析
6��8��1k�瞞eans聚类
6��8��2近邻传播聚类
6��8��3沃德凝聚层次聚类
6��9小结
第7章语义与情感分析
7��1语义分析
7��2探索WordNet
7��2��1理解同义词集
7��2��2分析词汇的语义关系
7��3词义消歧
7��4命名实体识别
7��5分析语义表征
7��5��1命题逻辑
7��5��2一阶逻辑
7��6情感分析
7��7IMDb电影评论的情感分析
7��7��1安装依赖程序包
7��7��2准备数据集
7��7��3有监督的机器学习技术
7��7��4无监督的词典技术
7��7��5模型性能比较
7��8小结
↑折 叠
译者序
自然语言处理和文本分析是当今人工智能研究和应用的重要方向,因其在人机交互方面的广泛应用和前景,吸引了学术界和产业界投入巨大的力量。目前,已经有一些产品陆续面世,在机器翻译、问答系统、语音助理、情感分析等方面取得了非常不错的进展,也给人们的生活带来了便利。
本书作者Sarkar是Intel公司的数据科学家,研究领域涉及数据科学与软件工程,有着丰富的文本分析研究和工程方面的经验,出版过多本R语言和机器学习方面的书籍。作者在GitHub上(sgithub./dipanjanS/text�瞐nalytics�瞱ith�瞤ython)开源了本书相关的程序代码和数据集,感兴趣的读者可以下载研究。
本书首先介绍了与文本分析相关的自然语言基本概念以及Python语言的特点、特性和常用功能。然后,结合示例代码详细阐述了文本理解与处理、文本分类、文本摘要、文本相似性与聚类、语义与情感分析等内容,具有很强的实用性,内容覆盖了文本分析的重要方面,为相关应用的开发和研究提供了很好的参考借鉴。
本书是关于自然语言处理的实践教程,通过学习本书,读者可以全面地掌握文本分析的基础技术和机器学习的一些经典方法,包括SVM、贝叶斯分类器、k�瞞eans聚类、层次聚类等,为进一步的学习和研究奠定基础。感兴趣的读者可以继续研究和探索深度学习技术在文本分析中的应用,这是人工智能应用中发展非常迅速的领域,相信阅读本书打下的基础会对你大有帮助。
后,感谢本书的作者和机械工业出版社华章公司的编辑,是他们的鼓励和支持使得本书能与读者见面。感谢我们家人的理解。尽管我们努力准确地表达作者的思想和方法,但仍难免有不当之处。译文中的错误,敬请指出,我们将非常感激,请将相关意见发往yanlongchuan@iie�盿c�薄�
闫龙川 高德荃 李君婷
2017年12月
前言
从高中开始接触数学和统计学以来,我就一直对数字着迷。分析学(analytics)、数据科学以及近的文本分析技术均出现较晚,大概是在几年前,当时关于大数据(big data)和数据分析的炒作越来越猛烈,甚至有些疯狂。就个人而言,我认为其中很多都是过度炒作,但是也有一些令人兴奋的东西,因为这些技术在新工作、新发现以及解决人们先前认为不可能解决的问题方面展现了巨大的可能性。
自然语言处理(Natural Language Processing,NLP)一直深深吸引着我,因为人脑科学和人类认知能力确实令人着迷。如果尝试在机器中重塑这种传递信息、复杂思维和情绪的能力,那一定是令人惊喜的。当然,尽管我们在认知计算(cognitive puting)和人工智能(Artificial Intelligence,AI)方面的发展突飞猛进,但现在尚且无法实现这一点。仅通过图灵测试可能是不够的,机器真正能复制人的方方面面吗?
当今,对于NLP和文本分析应用,迫切需求从非结构化、原始文本数据中提取有用信息和可行见解的能力。到目前为止,我一直在努力解决各种问题,面临诸多挑战,并随着时间的推移吸取了各种各样的经验教训。本书涵盖了我在文本分析领域学到的大部分知识,仅仅从一堆文本文档中建立一个花哨的词云是不够的。
在学习文本分析方面,大的问题或许不是信息缺乏,而是信息过多,通常这称为信息过载(information overload)。海量的资源、文档、论文、书籍和期刊包含了大量的理论资料、概念、技术和算法,它们常常使该领域的新手不知所措。解决问题的正确技术是什么?文本摘要如何真正有效?哪些才是解决多类文本分类的佳框架?通过将数学和理论概念与现实用例的Python实现相结合,本书尝试解决这个问题,并帮助读者避免迄今为止我所遇到的一些急迫问题。
本书采用了全面的和结构化的介绍方法。首先,它在前几章中介绍了自然语言理解和Python结构的基础知识。熟悉了基础知识之后,其余章节将解决文本分析中的一些有趣问题,包括文本分类、聚类、相似性分析、文本摘要和主题模型。本书还将分析文本的结构、语义、情感和观点。对于每个主题,将介绍基本概念,并使用一些现实世界中的场景和数据来实现涵盖每个概念的技术。本书的构想是呈现一幅文本分析和NLP的蓝海,并提供必要的工具、技术和知识以处理和解决工作中遇到的问题。我希望你能觉得本书很有帮助,并祝你在文本分析的世界中旅途愉快!
Python文本分析 自然语言处理NLP技术书籍 词汇语义关系网络模型 Python句法数 下载 mobi pdf epub txt 电子书 格式 2024
Python文本分析 自然语言处理NLP技术书籍 词汇语义关系网络模型 Python句法数 下载 mobi epub pdf 电子书Python文本分析 自然语言处理NLP技术书籍 词汇语义关系网络模型 Python句法数 mobi epub pdf txt 电子书 格式下载 2024