发表于2024-12-24
本书重点阐释自动化数据抓取和分析技术,适用于初中级用户。作者以简洁的代码、详细的讲解以及真实的案例,分析了大数据在社会科学领域的运用。作者尽可能回避晦涩的术语和高深的理论,通过非常实用的组件探讨很多有趣的实际问题。这种深入浅出的讲解方式有利于我们快速上手,在循序渐进中学习,并能把学到的技术应用到实际研究项目中。
本书特色:
提供关于网络抓取和文本挖掘的实用指南,既适合R的初学者,也适合有经验的用户。
讲解互联网上通信、交换、保存和显示信息的基础技术(如HTTP、HTML、XML、JSON、AJAX、SQL等)。
探索查询网络文档和数据集的基本技术(XPath及正则表达式),以及从动态HTML采集信息的技术。
提出数据抓取和管理的实用工作流,包括从选择正确的方法到优化代码以及维护抓取程序。
以案例分析为特色,每种技术都辅以详细的案例解析。
提供大量练习题,帮助读者深入学习与总结每项技术。
本书由资深社会科学家撰写,从社会科学研究角度系统且深入阐释利用R语言进行自动化数据抓取和分析的工具、方法、原则和实践。作者深入剖析自动化数据抓取和分析各个层面的问题,从网络和数据技术到网络抓取和文本挖掘的实用工具箱,重点阐释利用R语言进行自动化数据抓取和分析,能为社会科学研究者与开发人员设计、开发、维护和优化自动化数据抓取和分析提供有效指导。
本书共17章,第1章是概述,阐述数据挖掘的意义与实际应用。第2~8章介绍网络和数据技术基础知识,内容涉及互联网上通信、交换、保存和显示信息的基础技术(如HTTP、HTML、XML、JSON、AJAX、SQL等),并讲解用于查询网络文档和数据集的基本技术(XPath和正则表达式)。第9~11章介绍网络抓取和文本挖掘的实用工具箱,其中第9章讲解多种网络抓取技术,涉及正则表达式的使用、XPath、各类API接口、其他数据类型以及开源社区相关的技术;第10章深入介绍用于统计性文本处理的技术;第11章给出关于用R管理数据的项目中常见问题的一些见解。第12~17章介绍实际案例分析,涉及美国参议院里的合作网络、从半结构化文档解析信息、利用Twitter预测2014年奥斯卡奖、绘制姓氏地理分布图、采集关于手机的数据、分析产品评论里的情绪等。这些案例分析针对日常的数据抓取和文本处理的工作流程、真实环境数据中的陷阱以及规避它们的方法等问题提供一些实用的见解。
2.3.6 标题标签、
基于R语言的自动数据收集:网络抓取和文本挖掘实用指南 下载 mobi pdf epub txt 电子书 格式 2024
基于R语言的自动数据收集:网络抓取和文本挖掘实用指南 下载 mobi epub pdf 电子书买书没有卷,蛮贵的啊,以后多搞活动,买书没有卷,蛮贵的啊,以后多搞活动
评分书很好,大牛著作,值得购买
评分非常好的东东,货真价实,物流及时,很满意的一次购物体验。
评分书很好,内容很实用,超级赞,对抓取web数据有帮助
评分内容比较全面,基本上知识点都讲到了。
评分不错
评分正在学爬虫,里面的代码比我写的好多了,看到的晚了
评分包装的还是很好的,书的内容不错,很新~
评分感觉挺好的,包含文字挖掘和R怎么链接数据库的部分
基于R语言的自动数据收集:网络抓取和文本挖掘实用指南 mobi epub pdf txt 电子书 格式下载 2024