编辑推荐
1.针对互联网大数据,从大数据的获取到可视化展示与发布的整个过程,帮助读者建立完整的知识体系。侧重于非结构化数据处理与分析,有助于读者接触到更多的大数据核心关键技术。
2.各章节融入了作者在教学和科研中所积累的一些值得深入探讨的问题和观点,具有一定的启发性。
3.理论与实践相结合,各个章节包含有技术原理介绍,也包含实现技术、开源架构等方面的叙述,使得读者能从中掌握技术应用及实现方法。
4.注重产学结合,基于阿里云及其大数据平台,构建了综合应用实例,有效地集成运用了本书的一些关键技术,帮助读者深入理解大数据处理技术。
内容简介
本书内容分为三个部分,第一部分为互联网大数据的概述;第二部分为互联网大数据的获取与存储,包括了静态或动态WEB页面内容获取技术、结构化或非结构化数据的存储、常见的开源系统等;第二部分为处理与分析技术,包括了文本数据预处理、数据内容的语义分析技术、文本内容分类技术、聚类分析、大数据中的隐私保护、大数据可视化等内容;第三部分为综合应用。
内页插图
目录
第1部分概述
第1章互联网大数据
1.1从IT走向DT
1.1.1信息化与Web时代
1.1.2大数据时代
1.2互联网大数据及其特点
1.3互联网大数据处理的相关技术
1.3.1技术体系构成
1.3.2相关技术研究
1.4互联网大数据技术的发展
1.5本书内容安排
思考题
第2部分互联网大数据的获取
第2章Web页面数据获取
2.1网络爬虫技术概述
2.2爬虫的内核技术
2.2.1Web服务器连接器
2.2.2页面解析器
2.2.3爬行策略搜索
2.3主题爬虫技术
2.3.1主题爬虫模块构成
2.3.2主题定义
2.3.3链接相关度估算
2.3.4内容相关度计算
2.4动态Web页面获取技术
2.4.1动态页面的分类
2.4.2动态页面的获取方法
2.4.3模拟浏览器的实现
2.4.4基于脚本解析的实现
2.5微博信息内容获取技术
2.6DeepWeb数据获取技术
2.6.1相关概念
2.6.2DeepWeb数据获取方法
2.7反爬虫技术与反反爬虫技术
2.7.1反爬虫技术
2.7.2反反爬虫技术
2.7.3爬虫技术的展望
思考题
第3章互联网大数据的提取技术
3.1Web页面内容提取技术
3.1.1Web页面内容提取的基本任务
3.1.2Web页面解析方法概述
3.1.3基于HTMLParser的页面解析
3.1.4基于Jsoup的页面解析
3.2基于统计的Web信息抽取方法
3.3其他互联网大数据的提取
3.4阿里云公众趋势分析中的信息提取应用
3.5互联网大数据提取的挑战性问题
思考题
第3部分互联网大数据的结构化处理与分析技术
第4章结构化处理技术
4.1互联网大数据中的文本信息特征
4.2中文文本的词汇切分
4.2.1词汇切分的一般流程
4.2.2基于词典的分词方法
4.2.3基于统计的分词方法
4.2.4歧义处理
4.3词性识别
4.3.1词性标注的难点
4.3.2基于规则的方法
4.3.3基于统计的方法
4.4新词识别
4.5停用词的处理
4.6英文中的词形规范化
4.7开源工具与平台
4.7.1开源工具及应用
4.7.2阿里分词器
思考题
第5章大数据语义分析技术
5.1语义及语义分析
5.2词汇级别的语义技术
5.2.1词汇的语义关系
5.2.2知识库资源
5.2.3词向量
5.2.4词汇的语义相关度计算
5.3句子级别的语义分析技术
5.4命名实体识别技术
5.4.1命名实体识别的研究内容
5.4.2人名识别方法
5.4.3地名识别方法
5.4.4时间识别方法
5.4.5基于机器学习的命名实体识别
5.5大数据语义分析技术的发展
思考题
第6章大数据分析的模型与算法
6.1大数据分析技术概述
6.2特征选择与特征提取
6.2.1特征选择
6.2.2特征提取
6.2.3基于深度学习的特征提取
6.3文本的向量空间模型
6.3.1向量空间模型的维
6.3.2向量空间模型的坐标
6.3.3向量空间模型中的运算
6.3.4文本型数据的逻辑存储结构
6.4文本的概率模型
6.4.1N�瞘ram模型
6.4.2概率主题模型
6.5分类技术
6.5.1分类技术概要
6.5.2经典的分类技术
6.6聚类技术
6.7回归分析
6.7.1回归分析的基本思路
6.7.2线性回归
6.7.3加权线性回归
6.7.4逻辑回归
6.8大数据分析算法的并行化
6.8.1并行化框架
6.8.2矩阵相乘的并行化
6.8.3经典分析算法的并行化
6.9基于阿里云大数据平台的数据挖掘实例
6.9.1网络数据流量分析
6.9.2网络论坛话题分析
思考题
第7章大数据隐私保护
7.1隐私保护概述
7.2隐私保护模型
7.2.1隐私泄露场景
7.2.2k�材涿�及其演化
7.2.31�捕嘣�化
7.3位置隐私保护
7.4社会网络隐私保护
思考题
第8章大数据技术平台
8.1概述
8.2大数据技术平台的分类
8.3大数据存储平台
8.3.1大数据存储需要考虑的因素
8.3.2HBase
8.3.3MongoDB
8.3.4Neo4j
8.3.5云数据库
8.3.6其他
8.4大数据可视化
8.4.1大数据可视化的挑战
8.4.2大数据可视化方法
8.4.3大数据可视化工具
8.5Hadoop
8.5.1Hadoop概述
8.5.2Hadoop生态圈及关键技术
8.5.3Hadoop的版本
8.6Spark
8.6.1Spark的概述
8.6.2Spark的生态圈
8.6.3SparkSQL
8.6.4Spark Streaming
8.6.5Spark机器学习
8.7阿里云大数据平台
8.7.1飞天系统
8.7.2大数据集成平台
思考题
第4部分综 合 应 用
第9章基于阿里云大数据技术的个性化新闻推荐
9.1目的与任务
9.2系统架构
9.3存储设计
9.3.1RDS
9.3.2OSS
9.3.3OTS
9.3.4MaxCompute
9.4软件架构
9.4.1ECS
9.4.2爬虫
9.4.3模型训练
9.4.4分类过程
9.4.5开源代码
9.5阿里云大数据的应用开发
9.5.1开发环境
9.5.2部署
9.5.3运行与测试
思考题
参考文献
精彩书摘
第3章互联网大数据的提取技术
本章描述了从Web页面上提取感兴趣信息的方法,包括基于特征模板、基于页面解析树的方法,以及基于统计的方法等。同时考虑到互联网大数据来源的多样性,除了Web页面外,也简单介绍了Web日志信息和ETL信息提取方法,并结合阿里云公众趋势分析介绍了Web信息提取的应用效果。
3.1Web页面内容提取技术
Web页面中包含有丰富的信息内容,对于互联网大数据分析有用的信息可能是某个新闻报道页面中的正文部分,也可能是某网络论坛中的帖子信息、人际关系信息等。在进行Web页面内容提取时,一般是针对特定的网站,因此,可以假设页面结构特征是已知的。在这种条件下,页面内容的提取就是根据结构和内容特征进行提取,在方法上大同小异。这里主要介绍两大类目前使用的主要方法,即基于HTMLParser的解析和基于Jsoup的页面内容提取。
3.1.1Web页面内容提取的基本任务
从Web页面中提取内容,首先要对Web页面的各种常见版面进行整理归纳。目前Web页面版式各式各样,但可以归结为以下3种。
(1) 新闻报道型页面。页面上尽管可能会有导航区、外部链接区、版权声明区等区域,但是作为新闻正文文字一般是占主要的位置。典型的如图3��1所示的参考消息网站的新闻报道,页面的最上面是一些广告、导航条,右边是一些信息推荐。对于这种类型而言,目标就是提取正文部分的内容。
图3��1新闻报道的版面
(2) 列表型页面。这类页面为用户提供一种列表式的阅读,一般是作为聚集信息的访问入口。比较常用于新闻列表、网络论坛中的讨论区入口等。对于这种类型,通常会遇到翻页,即上一页、下一页等链接,允许用户在不同的列表页面上跳转。图3��2所示的是两种典型的列表型页面,左右两边分别来自网络论坛和新闻网站。对于这种类型而言,目标就是提取列表部分的所有内容。
图3��2两种列表型页面
(3) 评论型页面。用户在页面对某个事物、话题发表自己的观点。这种页面整体上看可以是一种列表型的,但是设计者更加关心每个评论中的具体信息。一般每个评论会有评论人、评论内容、评论时间、评论对象及评论的一些量化信息等。图3��3所示的是大众点评网上针对某个菜馆的评论信息。对于这种类型而言,目标就是提取每个评论的各个具体信息。
以上是从界面的角度来看页面内容提取,设计者关心的是从程序处理角度的Web页面信息提取。
与浏览器界面所输出的效果不同,程序所看到的是Web页面对应的HTML编码文件。例如,对于上面的股票网络论坛的列表型页面,其对应的HTML编码文件内容如下(其中列出了前面两个记录):
图3��3评论型页面
浪潮信息(000977)_浪潮信息股吧_000977股吧_股吧_东方财富网股吧
...
8857372890话题 中鑫富盈、吴峻乐操纵特力A等股票案罚没金额超 财经评论07-0107-02 16:41
386824157话题 证监会三大配套措施加强对重组上市监管 财经评论07-0207-02 16:42
…
可以看出,两个帖子记录都是由HTML的Tag所界定,Web内容提取就需要寻找能够定位记录的这种Tag标记。当然,这种特征标记也未必存在,这就要求采用一些程序上的技巧了。
3.1.2Web页面解析方法概述
可以看出,为了提取出在浏览器上所看到的格式化的记录信息,在程序处理中,就必须在相应的HTML编码文件中寻找所要提取的记录,并进行提取。
虽然页面类型很多,但无论是针对哪种类型的页面,在信息提取方面的基本思路是一致的,一般有以下3个步骤。
(1) 分析所处理的HTML源文件的特征。
由于HTML文件中包含了大量的标记(Tag),这些标记描述了Web浏览器在页面上如何显示文字、图形等内容,因此需要事先分析所要提取的信息内容所具有的标记特征。
(2) 先根据某种特征在HTML源文件中定位要提取的内容所在的块(Block)。
(3) 在Block内再利用块内特征提取具体内容。
现有方法都比较成熟,主要在于第(2)个步骤可以采用不同的定位方法。
最简单的定位方法是采用字符串匹配,以下是Java的一个片段,用于提取评论型页面的“楼层”信息。
//p1是楼层在HTML中的开始位置
p1=html.indexOf("");
//s是之后的字符串
s=html.substring(p1+new String("").length);
//得到楼层字符串
p2= s.indexOf("");
louceng=s.substring(1,p2);
这种字符串分析方法虽然实现起来很简单,但是该方法存在很多问题,主要是扩展性不好、适应能力很差、缺乏代码的复用能力。
高级的Web信息内容抽取方法主要有以下几种。
(1) 基于正则表达式的信息抽取技术。
正则表达式是用一种用来标识具有一定信息分布规律的字符串。在网页信息抽取过程中,首先把网页作为一个字符流的文件来处理,通过配置合理的正则表达式去匹配(定位)待抽取的信息,然后抽取其中的信息。
例如,以下片段采用一个正则表达式提取页面中标记的所有日期。
第3章互联网大数据的提取技术
本章描述了从Web页面上提取感兴趣信息的方法,包括基于特征模板、基于页面解析树的方法,以及基于统计的方法等。同时考虑到互联网大数据来源的多样性,除了Web页面外,也简单介绍了Web日志信息和ETL信息提取方法,并结合阿里云公众趋势分析介绍了Web信息提取的应用效果。
3.1Web页面内容提取技术
Web页面中包含有丰富的信息内容,对于互联网大数据分析有用的信息可能是某个新闻报道页面中的正文部分,也可能是某网络论坛中的帖子信息、人际关系信息等。在进行Web页面内容提取时,一般是针对特定的网站,因此,可以假设页面结构特征是已知的。在这种条件下,页面内容的提取就是根据结构和内容特征进行提取,在方法上大同小异。这里主要介绍两大类目前使用的主要方法,即基于HTMLParser的解析和基于Jsoup的页面内容提取。
3.1.1Web页面内容提取的基本任务
从Web页面中提取内容,首先要对Web页面的各种常见版面进行整理归纳。目前Web页面版式各式各样,但可以归结为以下3种。
(1) 新闻报道型页面。页面上尽管可能会有导航区、外部链接区、版权声明区等区域,但是作为新闻正文文字一般是占主要的位置。典型的如图3��1所示的参考消息网站的新闻报道,页面的最上面是一些广告、导航条,右边是一些信息推荐。对于这种类型而言,目标就是提取正文部分的内容。
图3��1新闻报道的版面
(2) 列表型页面。这类页面为用户提供一种列表式的阅读,一般是作为聚集信息的访问入口。比较常用于新闻列表、网络论坛中的讨论区入口等。对于这种类型,通常会遇到翻页,即上一页、下一页等链接,允许用户在不同的列表页面上跳转。图3��2所示的是两种典型的列表型页面,左右两边分别来自网络论坛和新闻网站。对于这种类型而言,目标就是提取列表部分的所有内容。
图3��2两种列表型页面
(3) 评论型页面。用户在页面对某个事物、话题发表自己的观点。这种页面整体上看可以是一种列表型的,但是设计者更加关心每个评论中的具体信息。一般每个评论会有评论人、评论内容、评论时间、评论对象及评论的一些量化信息等。图3��3所示的是大众点评网上针对某个菜馆的评论信息。对于这种类型而言,目标就是提取每个评论的各个具体信息。
以上是从界面的角度来看页面内容提取,设计者关心的是从程序处理角度的Web页面信息提取。
与浏览器界面所输出的效果不同,程序所看到的是Web页面对应的HTML编码文件。例如,对于上面的股票网络论坛的列表型页面,其对应的HTML编码文件内容如下(其中列出了前面两个记录):
图3��3评论型页面
浪潮信息(000977)_浪潮信息股吧_000977股吧_股吧_东方财富网股吧
...
8857372890话题 中鑫富盈、吴峻乐操纵特力A等股票案罚没金额超 财经评论07-0107-02 16:41
386824157话题 证监会三大配套措施加强对重组上市监管 财经评论07-0207-02 16:42
…
可以看出,两个帖子记录都是由HTML的Tag所界定,Web内容提取就需要寻找能够定位记录的这种Tag标记。当然,这种特征标记也未必存在,这就要求采用一些程序上的技巧了。
3.1.2Web页面解析方法概述
可以看出,为了提取出在浏览器上所看到的格式化的记录信息,在程序处理中,就必须在相应的HTML编码文件中寻找所要提取的记录,并进行提取。
虽然页面类型很多,但无论是针对哪种类型的页面,在信息提取方面的基本思路是一致的,一般有以下3个步骤。
(1) 分析所处理的HTML源文件的特征。
由于HTML文件中包含了大量的标记(Tag),这些标记描述了Web浏览器在页面上如何显示文字、图形等内容,因此需要事先分析所要提取的信息内容所具有的标记特征。
(2) 先根据某种特征在HTML源文件中定位要提取的内容所在的块(Block)。
(3) 在Block内再利用块内特征提取具体内容。
现有方法都比较成熟,主要在于第(2)个步骤可以采用不同的定位方法。
最简单的定位方法是采用字符串匹配,以下是Java的一个片段,用于提取评论型页面的“楼层”信息。
//p1是楼层在HTML中的开始位置
p1=html.indexOf("");
//s是之后的字符串
s=html.substring(p1+new String("").length);
//得到楼层字符串
p2= s.indexOf("");
louceng=s.substring(1,p2);
这种字符串分析方法虽然实现起来很简单,但是该方法存在很多问题,主要是扩展性不好、适应能力很差、缺乏代码的复用能力。
高级的Web信息内容抽取方法主要有以下几种。
(1) 基于正则表达式的信息抽取技术。
正则表达式是用一种用来标识具有一定信息分布规律的字符串。在网页信息抽取过程中,首先把网页作为一个字符流的文件来处理,通过配置合理的正则表达式去匹配(定位)待抽取的信息,然后抽取其中的信息。
例如,以下片段采用一个正则表达式提取页面中标记的所有日期。
……
前言/序言
互联网技术及应用进入一个高速发展时期,那些随手可得的互联网应用深刻地影响着社会经济的发展,改变了人们衣食住行、吃喝玩乐的生活方式,人们对互联网的依赖度逐年提升。网络数字化生活形态的形成,促进了互联网数据的累积,大数据由此成为互联网技术应用的新鲜血液,并将成为今后很长一段时期内各方关注的焦点。互联网大数据处理的理论、技术及其应用与社会经济各个领域的融合越来越密切,相关领域的专业技术人员迫切需要建立完整的互联网大数据分析应用的知识体系,以适应今后发展趋势的要求。
本书作者及其科研团队近十年来一直从事互联网内容分析挖掘、网络舆情、大数据、信息内容安全技术和应用方面的科研工作。在包括国家自然科学基金项目在内的各类科研项目支持下,对互联网信息获取和提取方法、互联网信息内容结构化处理技术、语义分析技术、数据挖掘的模型与算法、社交媒体中的用户行为及互联网金融等应用领域开展了大量研究,积累了一定的经验,强烈希望把科研工作中的体会和理解整理出来。此外,作者从2011年开始先后为复旦大学信息安全专业的本科生、研究生开设了《信息内容安全》《大数据安全》等课程,经过多年的教学实践,了解了学生的学习需求,积累了较为充足的讲义和素材。2016年5月,教育部联合阿里云计算有限公司等单位发起了产学合作专业综合改革项目,确定了包括大数据在内的多个新技术方向的教材编写目标,以产学结合来推动高校教材和课程的改革。本书的编写正是在该综合改革项目的支持和推动下进行的,是第一本系统讲述互联网大数据处理技术及应用的教材和专业参考书。
本书在知识结构上,试图覆盖互联网大数据处理与应用的完整知识体系;在内容上,尽量做到深入浅出,既考虑知识的基础性,也兼顾技术发展方向和前沿。本书全面介绍互联网大数据处理与应用中的主要理论和
互联网大数据处理技术与应用/大数据技术与应用专业规划教材 下载 mobi epub pdf txt 电子书 格式