新媒体数据挖掘——基于R语言 pdf epub mobi txt 电子书下载 2026

简体网页||繁体网页

☆☆☆☆☆

王小峰，方捷著

图书标签:

数据挖掘
R语言
新媒体
大数据
文本分析
社交媒体
网络爬虫
机器学习
统计分析
数据分析

下载链接在页面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 复制链接

想要找书就要到图书大百科

book.teaonline.club

立刻按 ctrl+D收藏本页

你会得到大惊喜!!

出版社：清华大学出版社

ISBN：9787302493228

版次：1

商品编码：12335292

包装：平装

开本：16开

出版时间：2018-03-01

用纸：胶版纸

页数：204

字数：315000

具体描述

内容简介

计算传播领域尤其是新媒体数据挖掘方向一直缺乏系统的教材，《新媒体数据挖掘——基于R语言》旨在为计算传播和计算社会科学领域的读者提供学习R编程语言和开发平台的捷径，希望能够填补这方面的空白。“让学习层次变得更宏观，让学习过程变得更轻松，让学习所获变得更通用”是《新媒体数据挖掘——基于R语言》的编写理念与特色。《新媒体数据挖掘——基于R语言》首先剖析了社会科学研究范式的革新，介绍了R语言的作用和特点；然后系统讲解了编程语言的通用学习方法和R语言的基本组成；最后展开实战应用，包括网络数据采集、文本挖掘和情感分析、社会网络分析、社交编程平台协作等非常有趣且有意义的内容。

《新媒体数据挖掘——基于R语言》适合作为计算传播和计算社会科学领域相关专业本科和研究生教材。高职高专学校也可以选用部分内容开展教学。《新媒体数据挖掘——基于R语言》还适合作为计算传播学和计算社会科学科研人员的自学书籍。

作者简介

王小峰，深圳大学传播学院网络新媒体系教师，计算机博士（武汉理工大学）、公共管理博士后（武汉大学），网页设计师、Redhat工程师。长期致力于计算机编程语言的教学与实践，精通C/C++、Java、PHP、JavaScript、Python、R、Go等十余种编程语言。研究方向主要有机器学习（自然语言处理）、数学文化传播、区块链应用系统开发等。编写《高级语言程序设计（C语言版）》《深度学习（人工智能）》《PHP动态网页设计与网站架设》等教材七部，发表国内外核心论文十余篇。近三年来主持中国博士后科学基金项目“深圳市区级卫生信息平台的集约化建设与第三方监管模式研究”（编号：2016M602370）、深圳市教育科学“十三五”规划重点项目“基于全栈开源的创客课题体系的规划与实施研究”(编号：zdfz16003)、科技创新课题“基于区块链技术的电子文件保护研究”“基于联盟区块链网络的电子病历防篡改研究”等项目和课题。

前言/序言

随着互联网、大数据、人工智能等技术的发展，科学技术已经不再只是人类社会的生活背景，而是真正关系到人类整体的生存与发展。多学科相结合、以各学科的视角和专业背景促成人类的自由与科学的发展，是科研工作者在当今时代最重要的研究论题，这反映在人文社会科学领域，正是“哲学社会科学”。

如果说自然科学的使命是研究和预测宇宙，那么哲学社会科学则是研究和预测人类社会。如今“计算范式”已经开始引发社会科学领域的科学范式革命，社会科学的实证研究已经形成“计算范式”与“计量范式”并驾齐驱的格局。

在这样的时代与科研背景下，近些年“人人都要学编程”“人人都要会数据统计”在人文社会科学领域显得越来越重要。由于具有开源、强大的网络扩展功能，广泛的社区支持，强大的数据处理/统计分析和可视化功能，R语言和Python语言俨然已成为当前人文社会科学领域的师生们必须掌握的学习和科研工具。该如何选择这些软件工具？如何真正地高效学习编程语言？如何以最简单但又最标准、最正确的姿态选择和学习一门网络编程语言？这些对人文社会科学领域的师生们来说并不是一件简单的事情。

笔者由于跨学科的背景：十年从事计算机领域的教学与开发工作，转型并进入深圳大学新闻与传播学院(人文社会科学领域)任教，在梳理人文社科、自然哲学的脉络关系中得到了“让世界在内心中逐渐合理起来”的哲学愉悦；为满足教学科研的需要，现将“十年来对计算机编程语言教与学的方法”和“对人文社科、自然哲学的统一观察”一并写成《新媒体数据挖掘——基于R语言》，作为这些年来工作与学习的总结。

《新媒体数据挖掘——基于R语言》的全部章节安排如下：

第1章首先从计算社会科学、计算传播学在国内学术圈中的兴起入题，介绍R语言的诞生、功能和在科研工作中的作用，对比几种科研工具的优缺点，并强调“R是一种自带编程环境的统计软件，Python是一种自带统计功能的编程语言”，以供读者做出符合自己实际情况的正确选择。

第2章以R为选择对象，先引入R的核心软件RGui，然后介绍R的综合IDE开发环境RStudio的下载、安装和基本使用。

第3章和第4章本着“程序=数据+代码”的宏观架构，本着将“编程语言作为语言来学习”的核心主线，选择大家熟悉的英语语法为参照物，对R语言的语法进行平缓、细致、精确的讲解，让读者能够真正掌握一种学习任何编程语言的“万能通用方法”：英语被称为动词的语言，名词(相当于数据类型)和以动词(相当于运算符)为核心的谓语构成简单句(相当于表达式语句)，为表达更复杂的逻辑，英语语法又扩充出了并列句、复合句等语法结构(相当于流程控制)。读者会发现，几乎所有计算机语言的图书，其前几章必然是“数据类型”“运算符”“流程控制”，这其实就是《新媒体数据挖掘——基于R语言》提出的“编程语言通用学习主线”；主线之外其他语法项目无外乎锦上添花，例如函数是为了提高代码复用率，软件包是为了引入第三方扩充。

第5章至第8章分别讲述如何用R的核心功能包和扩展功能包实现可视化绘图、互联网数据采集、文本挖掘与情感分析、社会网络分析等功能，这些内容不仅非常有趣，而且非常有应用和科研意义。

第9章引入一个案例学习社交编程平台GitHub，不仅加深对第6章中网络数据采集的学习和应用，还可结合附录中的R软件包的制作、发布与引入方法，真正认识到GitHub作为社交编程平台的重要性和意义：程序员世界的重建巴别塔。

在《新媒体数据挖掘——基于R语言》的编写分工上，深圳大学传播学院网络与新媒体系的王小峰老师负责全书的规划、主编与统稿，并参与撰写了第1、第3、第4、第6、第9章；福建师范大学福清分校电子与信息工程学院的方捷老师撰写了第2、第5、第7、第8章和全部附录内容。

由于时间仓促、作者水平有限，《新媒体数据挖掘——基于R语言》难免存在遗漏与不足，编者敬请读者批评与指正，我们将会在后续的工作中不断地调整、改进。

深圳大学王小峰

2017年10月30日夜

于深圳市福田区安托山

新媒体生态下的数据洞察：深度解析与实战应用在这信息爆炸的时代，新媒体已不再仅仅是传播信息的渠道，更是一个庞大而复杂的生态系统，孕育着海量的数据。从社交媒体的每一次互动，到新闻报道的传播轨迹，再到用户行为的细微变化，都蕴藏着丰富的价值。然而，如何从这汪洋大海般的数据中提炼出有意义的洞察，理解用户需求，优化内容策略，甚至预判趋势，已成为新媒体从业者、市场研究者以及每一个渴望在数字浪潮中站稳脚跟的个体所面临的关键挑战。本书并非仅仅是对某种工具或技术的简单罗列，而是致力于提供一个系统性的框架，引领读者深入理解新媒体数据挖掘的核心理念、关键技术与实战方法。我们将一同探索，如何将看似杂乱无章的数据转化为驱动决策的强大力量，如何在错综复杂的新媒体环境中，拨开迷雾，直击本质，发现那些隐藏在数字表面下的深刻规律。第一部分：新媒体数据时代的基石——理解与准备在着手挖掘之前，我们必须先对新媒体数据及其所处的环境有一个清晰的认识。本部分将为你构建坚实的基础：新媒体生态的演进与数据特征：我们将回溯新媒体的发展历程，从早期的博客、论坛，到如今的社交媒体、短视频平台、直播，理解不同平台的数据产生机制、格式特点以及相互之间的关联。我们将深入探讨新媒体数据的多样性（文本、图像、视频、音频、行为数据等）、实时性、海量性以及非结构化等核心特征，并分析这些特征对数据挖掘带来的挑战与机遇。数据挖掘的理论框架与方法论：在宏观层面，我们将介绍数据挖掘的经典理论，如分类、聚类、关联规则、回归分析、异常检测等，并阐述它们在新媒体数据分析中的适用场景。我们将强调数据预处理的重要性，包括数据清洗、特征工程、数据转换等关键步骤，这些步骤直接影响着后续分析的质量。构建你的数据分析工作流：本部分将引导你思考一个完整的数据分析流程，从问题的定义、数据的获取、数据的探索性分析（EDA），到模型选择、模型训练、模型评估，再到结果的解释与应用。我们将强调迭代式工作的理念，以及如何根据反馈不断优化分析策略。第二部分：解锁新媒体数据的密码——核心挖掘技术与应用这一部分是本书的核心，我们将深入探讨各种先进的数据挖掘技术，并结合新媒体领域的具体应用场景，让你掌握实操能力。文本挖掘的力量：理解舆情与用户心声：文本预处理与表示：学习如何对海量文本数据进行分词、去除停用词、词干提取等操作，并掌握TF-IDF、词向量（Word2Vec, GloVe, FastText）等文本表示方法，将文本转化为机器学习模型可识别的数值形式。情感分析与观点挖掘：掌握如何识别文本中的情感倾向（正面、负面、中性），洞察用户对产品、服务、事件的真实看法，为品牌声誉管理、危机预警提供依据。主题建模（Topic Modeling）：探索LDA（Latent Dirichlet Allocation）等算法，自动发现文本数据中潜在的主题，了解热门话题、内容趋势，指导内容创作与传播。关键词提取与信息抽取：学习如何从大量文本中提取核心关键词，以及如何抽取结构化信息（如人名、地名、组织机构、事件等），为信息检索、知识图谱构建打下基础。网络分析的视角：洞察连接与影响力：社交网络图的构建与分析：理解如何将用户、内容、互动关系等表示为网络图，并学习中心性度量（度中心性、介数中心性、接近中心性）、社群发现（如Louvain算法）、路径分析等技术，识别关键意见领袖（KOL）、社群结构与信息传播路径。内容传播分析：追踪信息在新媒体平台上的传播过程，分析传播速度、范围、影响因子，理解病毒式传播的机制，优化内容分发策略。用户行为分析：理解需求与优化体验：用户画像构建：结合用户基本属性、兴趣偏好、行为轨迹等数据，构建精细化的用户画像，为个性化推荐、精准营销提供支撑。用户分群与细分市场：运用聚类算法将用户划分为不同的群体，理解不同群体的特征与需求，制定差异化的运营策略。行为序列分析与预测：分析用户在平台上的行为路径，预测用户的下一步行为，优化用户体验，提高转化率。内容推荐系统：精准触达，连接价值：推荐算法的原理与类型：深入理解协同过滤（User-based, Item-based）、基于内容的推荐、混合推荐等主流推荐算法的原理。在新媒体场景下的推荐实践：探讨如何在新闻、视频、商品等新媒体内容推荐中应用这些算法，实现千人千面的个性化内容分发。可视化呈现：让数据说话：图表选择与设计原则：学习如何选择最适合展示特定数据洞察的图表类型（柱状图、折线图、散点图、热力图、网络图等）。交互式可视化工具的应用：探索如何利用可视化工具将复杂的数据关系清晰、直观地呈现出来，便于理解和沟通。第三部分：从数据到价值——实战案例与未来展望理论与技术最终要落地到实践，本部分将通过丰富的案例，展示数据挖掘在新媒体领域的实际应用，并展望未来的发展方向。新媒体运营的智慧：内容生产策略优化：如何通过数据分析指导选题、内容形式、发布时间，提高内容的吸引力和传播效果。用户增长与留存：如何利用数据分析识别用户流失的风险，并制定有效的用户挽留策略。广告投放与营销效果评估：如何通过数据分析优化广告投放，精准触达目标用户，并评估营销活动的ROI。品牌影响力与危机管理：品牌声誉监测与分析：实时监测品牌在社交媒体上的讨论，及时发现负面信息，制定应对策略。舆情预警与传播控制：预测潜在的舆情风险，并学习如何有效地控制负面信息的传播。案例研究：我们将选取不同类型的新媒体平台（如社交媒体、新闻门户、短视频平台）的真实或模拟案例，详细解析如何运用前述的数据挖掘技术来解决实际问题，例如：分析某个热门话题的用户讨论情感分布，了解公众对某一事件的态度。构建一个社交媒体用户画像，识别潜在的品牌拥护者或反对者。预测某条新闻的传播路径和最终影响力。优化短视频的推荐算法，提高用户观看时长。新兴技术与未来趋势：展望人工智能、自然语言处理（NLP）、深度学习等新兴技术在新媒体数据挖掘领域的应用前景，如更高级的文本理解、图像识别、视频内容分析，以及如何构建更智能、更具预测性的新媒体生态系统。本书旨在成为你在新媒体数据挖掘道路上的得力助手，让你不仅能够理解“是什么”，更能掌握“怎么做”。通过理论的讲解、技术的剖析和丰富的实战案例，我们希望能够激发你对数据分析的热情，培养你运用数据洞察新媒体世界的敏锐度，并最终将这些能力转化为推动新媒体行业发展、实现个人职业目标的重要工具。

用户评价

评分☆☆☆☆☆

这本书的结构设计非常合理，每一章都像是在解决一个新媒体领域中具体的数据分析问题，并且都有清晰的脉络和严谨的逻辑。从数据获取的渠道和方法，到数据的预处理和清洗，再到各种可视化和建模技术的应用，作者都循序渐进地进行了讲解。我特别欣赏书中对于不同类型数据的处理策略，例如对于文本数据，是如何进行分词、词性标注、去除停用词等；对于用户行为数据，是如何进行特征工程和特征选择。这些细节的处理，往往是决定数据分析成败的关键。而且，书中给出的R语言代码都附带了详细的注释，使得代码的逻辑一目了然，即使是不熟悉R语言的读者，也能通过阅读注释来理解代码的意图。我尝试着将书中的一些文本分析方法应用于我们自己的内容创作过程中，比如通过词频分析来了解用户关注的热点，通过情感分析来评估内容的影响力，这些都帮助我更科学地指导内容生产，提升了内容的吸引力和传播效果。这本书让我看到了数据分析的实用价值，也让我对R语言在实际工作中的应用有了更深刻的认识，是一款非常值得推荐的工具书。

评分☆☆☆☆☆

坦白说，在拿到这本书之前，我对R语言的学习一直停留在比较基础的阶段，对于如何将其应用到复杂的数据分析场景中感到有些力不从心。这本书的出现，恰好弥补了我这一块的知识短板。作者在讲解R语言的过程中，非常注重与新媒体业务场景的结合，例如在讲解数据框操作时，会结合新闻报道的结构化数据；在讲解文本挖掘时，会用微博、公众号的文章作为案例。这种“学以致用”的方式，让我能够更直观地理解R语言的强大功能，也更能激发我的学习动力。我最喜欢的部分是关于内容推荐系统设计的探讨，书中虽然没有直接给出完整的算法模型，但却详细介绍了构建推荐系统的基本思路和关键技术，比如如何计算物品之间的相似度，如何利用协同过滤算法进行用户推荐等等，这些都为我后续独立研究和开发提供了重要的理论基础。这本书不仅仅是一本技术手册，更像是一个引路人，让我看到了R语言在新媒体数据分析领域的无限可能，也为我后续的学习和工作指明了方向。

评分☆☆☆☆☆

我一直认为，数据分析的价值最终体现在应用上，而这本书在这方面做得尤为出色。它不是那种只会讲理论，或者只会展示几个简单示例的书籍，而是真正关注如何将R语言应用于解决新媒体领域的实际问题。书中所涵盖的议题非常广泛，从最基础的数据采集和清洗，到更高级的文本情感分析、话题挖掘，再到对社交网络传播路径的模拟分析，几乎囊括了新媒体数据挖掘的各个环节。我尤其对书中关于舆情监测和负面信息预警的部分印象深刻，它提供了一套完整的解决方案，包括如何构建关键词库、如何利用机器学习模型进行情感分类、如何实时追踪热点话题等等。这对于需要时刻关注品牌声誉和应对危机管理的公关和市场部门来说，无疑是极具价值的。而且，书中的很多技术点都紧跟行业前沿，比如如何利用自然语言处理技术分析用户评论，如何通过图谱分析挖掘 KOL 影响力等，都为我们提供了新的思路和方法。这本书让我深刻认识到，R语言在新媒体数据分析领域的作用远不止于简单的统计，它更是一种强大的工具，能够帮助我们发现隐藏在数据中的洞察，驱动业务增长。

评分☆☆☆☆☆

这本书的出现，简直是给新媒体从业者和研究者吃下了一颗定心丸。我一直对新媒体背后海量数据的价值感到好奇，但又苦于没有合适的工具和方法去挖掘，市面上讲理论的书籍不少，但真正落地、能够指导实操的却凤毛麟角。直到我翻开这本书，才发现原来那些看似复杂的数据分析，在R语言的加持下，竟然变得如此清晰和可行。书中的案例分析非常贴近实际，从舆情监测到用户画像构建，再到内容推荐算法的初步探讨，都紧紧围绕着新媒体的痛点和需求展开。我尤其喜欢书中对于一些核心概念的解释，比如用户行为的量化、社交网络的结构分析等等，作者都能够用浅显易懂的语言和清晰的逻辑来阐述，即使是初学者也能快速掌握。而且，书中的R语言代码示例都写得非常规范，可以直接复制粘贴运行，然后根据自己的数据进行调整，这大大降低了学习成本，也让我这个R语言新手能够快速上手，开始自己的数据探索之旅。总而言之，这本书就像一个得力的助手，为我打开了新媒体数据挖掘的大门，让我看到了数据背后隐藏的巨大能量，也激发了我进一步深入研究的兴趣。

评分☆☆☆☆☆

不得不说，这本书的写作风格非常接地气，没有那种晦涩难懂的学术术语堆砌，更多的是一种分享和指导的语气，仿佛作者就在我身边，一步步地带领我遨游在新媒体数据分析的海洋里。我印象最深的是关于用户画像构建的那一部分，书中详细介绍了如何利用用户在社交平台上的互动行为、兴趣标签、发布内容等多种维度的数据，通过R语言进行聚类和特征提取，最终形成立体化的用户画像。这个过程的讲解非常细致，从数据清洗、特征工程到模型选择和评估，都给出了详实的步骤和代码。我尝试着按照书中的方法，对我们团队负责的某个社交账号的用户数据进行了一次画像分析，结果不仅验证了书中的理论，更让我对我们的目标用户有了更深刻的理解，为后续的内容策略制定提供了宝贵的参考。书中的一些数据可视化图表也做得非常出色，能够直观地展示分析结果，比如用户活跃度趋势、内容偏好分布等等，这些都极大地提升了报告的可读性和说服力。对于那些想从零开始学习新媒体数据挖掘，或者希望提升自己数据分析能力的朋友来说，这本书绝对是值得入手的一本好书。