数据挖掘与应用/北京大学光华管理学院教材 [Data mining and its application]

数据挖掘与应用/北京大学光华管理学院教材 [Data mining and its application] pdf epub mobi txt 电子书 下载 2025

张俊妮 著
图书标签:
  • 数据挖掘
  • 机器学习
  • 商业分析
  • 统计学
  • 数据分析
  • 人工智能
  • 光华管理学院
  • 北京大学
  • 教材
  • 应用
想要找书就要到 图书大百科
立刻按 ctrl+D收藏本页
你会得到大惊喜!!
出版社: 北京大学出版社
ISBN:9787301152393
版次:1
商品编码:10153986
包装:平装
丛书名: 北京大学光华管理学院教材
外文名称:Data mining and its application
开本:16开
出版时间:2009-06-01
用纸:胶版纸
页数:185
字数:220000
正文语种:

具体描述

内容简介

  《数据挖掘与应用》全面地介绍了数据挖掘的相关主题.包括数据理解与数据准备、关联规则挖掘、多元统计中的降维方法、聚类分析、神经网络、决策树方法、模型评估等内容。全书体系完整,文字精炼,注重对数据挖掘方法的直觉理解及其应用:同时,保持了一定的严谨性,为学生理解和运用这些方法提供了坚实的基础。
  《数据挖掘与应用》实例丰富,并附有相应SAS程序,以便于学生尽快理解相关内容并用以解决实际问题。
  《数据挖掘与应用》配有教辅,可以免费提供给任课教师使用。如需要,欢迎填写书后的“教师反馈及课件申请表’索取。

作者简介

  张俊妮,美国哈佛大学统计学博士,现为北京大学光华管理学院商务统计及经济计量系副教授。研究领域包括因果推断、贝叶斯分析、蒙特卡洛方法、数据挖掘。在Journal of American Statistical Association、Statistica Sinica、Journal ofEducational and BehavioralStatistics、 《经济学(季刊)》、 《数理统计与管理》、 《管理世界》等期刊上发表论文十余篇。

内页插图

目录

第一章 数据挖掘概述
1.1 什么是数据挖掘
1.2 数据挖掘的应用
1.3 数据挖掘方法论
第二章 数据理解和数据准备
2.1 数据理解
2.2 数据准备
2.3 使用SAS进行数据理解和数据准备:FNBA信用卡数据
第三章 关联规则挖掘
3.1 关联规则的实际意义
3.2 关联规则的基本概念及Apriori算法
3.3 负关联规则
3.4 序列关联规则
3.5 使用SAS进行关联规则挖掘
第四章 多元统计中的降维方法
4.1 主成分分析
4.2 探索性因子分析
4.3 多维标度分析
第五章 聚类分析
5.1 距离与相似度的度量
5.2 k均值聚类法
5.3 层次聚类法
第六章 预测性建模的一些基本方法
6.1 判别分析
6.2 朴素贝叶斯分类算法
6.3 k近邻法
6.4 线性模型与广义线性模型
第七章 神经网络
7.1 神经网络架构及基本组成
7.2 误差函数
7.3 神经网络训练算法
7.4 提高神经网络模型的可推广性
7.5 数据预处理
7.6 使用SAS建立神经网络模型
7.7 自组织图
第八章 决策树
8.1 决策树简介
8.2 决策树的生长与修剪
8.3 对缺失数据的处理
8.4 变量选择
8.5 决策树的优缺点
第九章 模型评估
9.1 因变量为二分变量的情形
9.2 因变量为多分变量的情形
9.3 因变量为连续变量的情形
9.4 使用SAS评估模型
第十章 模型组合与两阶段模型
10.1 模型组合
10.2 随机森林
10.3 两阶段模型
参考文献

精彩书摘

  对于定序自变量,最常用的一种转换是按各类别的序号直接将该变量转换为数值自变量。对于名义自变量,最常用的转换是将该变量转换为哑变量。例如,对于性别而言,可以生成一个二元哑变量,取值1表示“女”,0表示“男”。对于有多个取值的名义自变量,可以生成一系列二元哑变量。例如,中国内地有31个省、自治区和直辖市,可以据此生成30个哑变量。但是,如果一个名义自变量取值过多,生成过多的哑变量容易造成过度拟合。一个简单而有效的方法是只针对包含观测比较多的类别生成哑变量,而将剩余的类别都归于“其他”这个大类别。还有一种方法是利用领域知识,将各类别归为几个大类之后再生成哑变量,例如,将中国内地31个省、自治区和直辖市归为华北、华中、华东、华南、西北、东北、西南等地区,再生成地区的哑变量。五、处理时间变量时间变量无法直接进入建模数据集,因为时间是无限增长的,在历史数据中出现的时间肯定不同于将来模型所需应用的数据集中出现的时间,所以直接使用历史数据的时间建立的模型就无法应用于将来的数据集。如果要在建模过程中考虑时间变量,就必须对其进行转换。常用的转换有如下几种:
  1.转换为距某一基准时间的时间长短,例如,“距离××年××月××日的天数”、“距离下一次春节的周数”等。
  2.转换为季节性信息,例如,一年中第几季度或第几个月,每个季度或月对应于一个二元哑变量。
  很多情形下可以考虑对时间进行多种转换,把所有可能影响因变量的时间信息都放人建模过程中。例如,对于某些食品的购买量而言,不仅存在节日效应,也存在季节性效应,这时就需要同时使用上述两种转换。
  六、异常值
  自变量的异常值对一些模型会产生很大影响。在图2.2 的示例中,大部分数据点的,值都分布在-2.2 和2.4 之间,但有一个数据点的x值为8,它对拟合的回归线会有很大的影响;如果它落在点0或点6,拟合出的回归线分别为线a和线b,它们的差别颇大。
  因变量的异常值同样可能对模型有很大影响,在这里不赘述。
  第五章将介绍的聚类算法可以用来发现异常值,如果少数几个观测自成一类,它们很有可能是异常值。发现异常值后需要查看它们为什么异常。

前言/序言

  教材建设是大学人才培养和知识传授的重要组成部分。对管理教育而言,教材建设尤为重要,一流的商学院不仅要有一流的师资力量、一流的生源、一流的教学管理水平,而且必须使用一流的教科书。一流的管理类教科书必须满足以下标准:第一,能把所在领域的基础知识以全面、系统的方式和与读者友好的语言呈献给读者;第二,必须有时代感,能把学科前沿的研究成果囊括进去;第三,必须做到理论和实务(包括案例分析)相结合,有很强的实用性;第四,能够启发学生思考现实的管理问题,培养他们分析问题和解决问题的能力;第五,可以作为研究人员和管理人士的工具书。
  中国的管理教育是伴随改革开放而产生的。真正意义上的管理教育在中国不过十多年的历史,但巨大的市场需求使得管理教育成为中国高等教育各学科中发展最快的领域,管理类教科书市场异常繁荣。但总体而言,目前国内市场上管理类教科书的水平仍不能令人满意。国内教科书作者大多数在所涉及领域并没有真正的原创性研究和学术贡献,所撰写的教科书普遍停留在对国外教科书的内容进行中国式排列组合的水平上;国外引进的原版教科书虽然具有学术上的先进性,但由于其写作背景是外国的管理实践和制度安排,案例也都是取自于西方发达国家,对中国读者而言,总有一种隔靴搔痒的感觉。如何写出一流的中国版的管理类教材,是中国管理教育发展面临的重要任务。
  北京大学光华管理学院一直重视教材建设工作。1999年夏,我们曾与经济科学出版社签约,以每本20万元的稿酬,向全国征集MBA教科书作者。这个计划公布之后,我们收到了十几本教科书的写作方案。



探索数据洪流的价值:一本关于数据挖掘与应用的书籍简介 在当今信息爆炸的时代,数据以前所未有的速度和规模产生、积累,并渗透到我们生活的方方面面。从商业决策到科学研究,从社会治理到个人生活,数据的洞察力正日益成为驱动进步和创新的核心力量。然而,海量的数据本身并不能直接转化为有用的信息。如何在浩瀚的数据海洋中提取出有价值的模式、趋势和知识,从而指导我们做出更明智的决策,这是数据挖掘所要解决的关键问题。 这本书籍,旨在为读者揭示数据挖掘的奥秘,并展示其在各个领域的广泛应用。它将引导读者穿越数据的迷雾,学习如何有效地发现隐藏在数据背后的规律,从而创造出实实在在的价值。 本书将深入探讨以下几个核心领域: 一、数据挖掘的基础理论与方法 数据预处理: 在进行任何有意义的分析之前,原始数据往往需要经过一系列的清洗、转换和整合。本书将详细介绍数据清洗技术,包括处理缺失值、噪声数据、异常值等,以及数据集成、数据变换(如规范化、离散化)等关键步骤。理解和掌握数据预处理对于后续分析的质量至关重要。 经典的数据挖掘算法: 本书将系统地介绍各种核心的数据挖掘算法,并详细阐述其工作原理、适用场景和优缺点。这包括: 分类(Classification): 学习如何构建模型来预测离散的目标变量,例如,预测客户是否会流失、邮件是否为垃圾邮件等。我们将深入讲解决策树、支持向量机(SVM)、朴素贝叶斯、K近邻(KNN)等经典分类算法。 回归(Regression): 探索如何预测连续的目标变量,例如,预测房屋价格、股票走势等。本书将涵盖线性回归、多项式回归、岭回归等常用回归模型。 聚类(Clustering): 学习如何将相似的数据点分组,发现数据中的自然结构,例如,对客户进行细分、对文档进行主题分类等。K-means、层次聚类、DBSCAN等聚类算法将是重点讲解的内容。 关联规则挖掘(Association Rule Mining): 掌握如何发现数据项之间的有趣关系,例如,在超市购物篮分析中发现“购买啤酒的人也经常购买尿布”这样的规则。Apriori算法和FP-growth算法是该领域的经典代表。 异常检测(Anomaly Detection): 学习如何识别数据中不寻常或异常的观测值,这对于欺诈检测、网络安全监控、故障诊断等至关重要。 模型评估与选择: 掌握如何科学地评估和比较不同模型的性能,选择最适合特定任务的模型。本书将介绍混淆矩阵、准确率、精确率、召回率、F1分数、ROC曲线、AUC值等评估指标,以及交叉验证等模型选择技术。 二、数据挖掘的实际应用场景 本书不仅会深入理论,更强调将数据挖掘技术应用于解决实际问题。我们将通过大量的案例研究,生动展示数据挖掘在以下领域的强大威力: 商业智能与市场营销: 客户细分: 利用聚类分析将客户划分为不同的群体,以便进行有针对性的营销活动。 精准营销: 通过分析客户的行为和偏好,预测客户对特定产品的兴趣,实现个性化推荐。 流失预测: 识别有流失倾向的客户,并采取措施进行挽留。 市场篮分析: 发现商品之间的关联性,优化商品陈列和促销策略。 金融服务: 信用评分: 构建模型评估个人或企业的信用风险,支持信贷审批决策。 欺诈检测: 识别信用卡交易、保险索赔等中的欺诈行为。 股票市场分析: 探索影响股票价格的因素,辅助投资决策。 电子商务: 推荐系统: 基于用户历史行为和偏好,为用户推荐他们可能感兴趣的商品或内容。 用户行为分析: 理解用户在网站上的浏览、点击、购买路径,优化用户体验。 医疗健康: 疾病诊断辅助: 利用医学影像和病人数据,辅助医生进行疾病诊断。 药物研发: 分析基因数据和临床试验数据,加速新药的发现和开发。 健康风险预测: 识别可能患有某种疾病的高风险人群。 其他领域: 此外,本书还将触及数据挖掘在社交网络分析、文本挖掘、图像识别、制造业优化等领域的应用,展现其跨学科的广泛影响。 三、数据挖掘的实践工具与技术 为了帮助读者将理论付诸实践,本书还将介绍一些常用且高效的数据挖掘工具和编程语言,如Python(及其相关的库,如Scikit-learn, Pandas, NumPy)和R语言。通过代码示例和实践指导,读者将能够亲手实现数据挖掘的整个流程,从数据导入、预处理到模型构建和评估。 本书的目标读者 本书适合所有对数据充满好奇,希望从数据中提取洞察的专业人士、学生以及研究人员。无论您是计算机科学、统计学、经济学、管理学、市场营销、金融等领域的从业者,还是希望提升数据分析能力的学习者,本书都将为您提供坚实的基础和实用的方法。 阅读本书,您将能够: 理解数据挖掘的核心概念和基本原理。 掌握多种经典的数据挖掘算法,并了解其适用范围。 学会如何对数据进行有效的预处理,为分析打下基础。 能够选择合适的评估指标来衡量模型的性能。 通过丰富的案例研究,了解数据挖掘在不同领域的实际应用。 获得使用常用工具进行数据挖掘实践的指导。 让我们一起踏上这段激动人心的探索之旅,解锁数据的无限潜能,将数据转化为驱动决策和创新的强大力量。

用户评价

评分

作为一名深度学习爱好者,我一直对数据能够蕴含的巨大价值感到着迷,而《数据挖掘与应用》这本书,即使我还没有翻开它,单凭书名就足以勾起我极大的好奇心。我设想,这本书应该会像一位经验丰富的向导,带领我深入探索数据的幽深之处,揭示那些隐藏在海量信息背后的规律与洞见。我期待它能够以一种引人入胜的方式,将枯燥的数据处理过程变得生动有趣,让我理解从原始数据到有价值知识的转化是如何发生的。我想象中的作者,必定是一位在数据挖掘领域有着深厚造诣的专家,他们能够将复杂的理论概念,用清晰易懂的语言进行阐释,并且通过大量的实际案例,展示这些理论如何在现实世界中发挥作用,解决实际问题。我尤其希望这本书能够涵盖当前数据挖掘领域最前沿的技术和方法,比如深度学习在图像识别、自然语言处理中的应用,以及如何在海量用户行为数据中发现有价值的模式,从而指导企业做出更明智的决策。当然,除了技术层面的介绍,我也期待书中能够探讨数据挖掘所涉及的伦理问题和隐私保护,因为在信息爆炸的时代,如何负责任地使用数据,是每一位从业者都必须认真思考的问题。

评分

我是一名对社会科学和大数据研究充满探索精神的学者,一直关注着大数据技术如何赋能社会科学研究。《数据挖掘与应用》这本书,尽管我还没有开启阅读之旅,但它所传递的“数据挖掘”的强大能力,已经让我对接下来的内容充满了想象。我设想,这本书可以为我提供一套研究社会现象的全新视角和工具。我期待书中能够介绍如何利用互联网数据、社交媒体数据、公开的政府数据等,来分析社会热点问题,探究社会行为模式,甚至预测社会发展趋势。我希望能够了解到如何运用数据挖掘技术,例如文本挖掘、网络分析、时空数据分析等,来解决诸如贫困问题、犯罪率变化、公共卫生事件传播等复杂的社会议题。此外,我也非常关注数据挖掘在政策制定和评估方面的应用,希望书中能够提供一些指导,如何利用数据来支持更科学、更有效的政策制定。对我而言,一本能够拓展我的研究视野,并为我的学术探索提供新思路的书籍,无疑是珍贵的。

评分

作为一名对统计学和机器学习有着浓厚兴趣的在校学生,我一直渴望找到一本能够将理论知识与实际应用紧密结合的教材。《数据挖掘与应用》这本书,光听名字就让我觉得它很有分量,尤其是“北京大学光华管理学院教材”的印记,更是让我对其内容的严谨性和前沿性充满信心。我设想,这本书会从统计学的基本原理出发,逐步深入到各种数据挖掘算法,比如分类、聚类、关联规则挖掘等。我期待它能够提供详尽的算法原理讲解,并配以清晰的数学公式推导,让我能够深入理解算法的内在逻辑。同时,我也非常看重书籍的实践性,希望书中能够通过大量的代码示例,最好是基于Python等主流数据科学语言,来展示如何实现这些算法,并进行数据可视化和结果解读。我尤其希望能看到书中能提供一些数据集,让我可以亲手去实践,去验证书中的理论和方法。一本好的教材,应该能够帮助我从“知其然”走向“知其所以然”,并最终能够独立运用所学知识解决实际问题。

评分

我是一位对商业智能和决策支持系统有着深刻理解的IT从业者,一直致力于探索如何将数据转化为商业价值。《数据挖掘与应用》这本书,光看书名,就让我感受到了其专业性和实践性。我设想,这本书的作者一定对数据挖掘在企业中的实际应用有着深入的研究和独到的见解。我期待书中能够详细介绍如何构建一个完整的数据挖掘项目,包括需求分析、数据收集、模型构建、结果验证和成果转化等各个环节。我希望书中能够提供一些关于如何将数据挖掘模型嵌入到现有业务流程中的指导,以及如何衡量数据挖掘项目的ROI。此外,我也非常关注数据治理和数据质量在数据挖掘项目中的重要性,希望书中能够对此有深入的探讨。对我而言,一本能够帮助我更好地理解和实践数据驱动决策,并为企业创造实际价值的书籍,无疑是极具吸引力的。

评分

我是一位对商业分析充满热情的研究生,一直希望能够找到一本能够系统梳理数据挖掘在商业领域应用的教材。《数据挖掘与应用》这本书,我还没来得及细读,但它所传达的“光华管理学院教材”的背景,已经让我对其内容充满期待。我设想,这本书的侧重点可能会更加偏向于管理学视角,不仅仅是技术层面的讲解,更重要的是如何将数据挖掘的成果转化为可行的商业策略。我希望能从书中了解到,企业如何利用数据分析来优化营销活动,预测客户流失,提升运营效率,甚至发现新的商业机会。我想象中的案例分析,会更加贴近真实的商业场景,例如零售业如何通过分析销售数据来优化库存管理,金融业如何利用数据模型来评估信贷风险,或者互联网公司如何通过用户行为分析来改进产品设计。此外,我也期待这本书能够探讨数据驱动决策的文化建设,以及如何建立一个高效的数据分析团队。对我而言,一本真正优秀的教材,不仅要教授知识,更要激发思考,培养解决实际问题的能力。

评分

我是一位对金融科技和风险管理充满兴趣的金融从业者,深知数据在现代金融体系中的核心作用。《数据挖掘与应用》这本书,尚未翻阅,但它所蕴含的“数据挖掘”与“应用”的力量,已经让我对未来的阅读充满了期待。我设想,这本书将为我打开一扇新的大门,让我更深入地理解如何利用先进的数据技术来应对金融领域的挑战。我期待书中能够详细介绍在金融风控、反欺诈、信用评估、量化交易等方面的具体应用案例。我希望能够了解到如何利用机器学习模型来预测市场波动,如何通过分析海量交易数据来识别异常行为,以及如何利用自然语言处理技术来分析新闻和报告,从而辅助投资决策。此外,我也非常关注数据挖掘在合规性和监管方面的应用,例如如何利用数据来满足监管要求,以及如何确保数据的合规性和安全性。对我而言,一本能够帮助我提升专业技能,更好地服务于金融创新的书籍,是极具价值的。

评分

我是一名刚入职不久的数据分析师,在工作中常常感到知识体系不够扎实,尤其是在面对复杂的数据问题时,会感到力不从心。《数据挖掘与应用》这本书,虽然我还没来得及深入阅读,但它所代表的权威性和实用性,已经引起了我极大的关注。我设想,这本书能够为我构建一个完整的数据挖掘知识框架,涵盖从数据预处理、特征工程到模型选择、评估与部署的整个流程。我期待书中能够详细介绍各种主流的数据挖掘技术,并重点阐述它们在不同应用场景下的优劣势。此外,我也希望书中能够提供一些关于如何选择合适工具和平台,以及如何应对实际工作中遇到的各种挑战的建议。对我而言,一本能够提升我工作效率,让我能够更自信地解决问题的书籍,就是最有价值的书籍。我想象中的这本书,会像一位经验丰富的导师,在我职业发展的道路上,提供宝贵的指导和启发。

评分

我是一名对用户体验和产品设计充满执着的互联网产品经理,始终在思考如何通过数据来更好地理解用户,从而打造出更优秀的产品。《数据挖掘与应用》这本书,我还没有开始细读,但它所蕴含的“数据挖掘”与“应用”的结合,已经让我对接下来的内容充满了期待。我设想,这本书将成为我理解用户行为、优化产品策略的得力助手。我期待书中能够深入讲解如何利用用户行为数据,例如用户在产品中的点击、浏览、停留、转化等行为,来分析用户画像,挖掘用户需求,识别用户痛点。我希望能够了解到如何运用A/B测试、用户分群、漏斗分析等数据挖掘技术,来评估产品功能的有效性,优化用户路径,提升用户满意度和留存率。此外,我也非常关注数据挖掘在个性化推荐、智能交互等方面的应用,希望书中能够提供一些实际的案例和方法,帮助我更好地实现这些目标。对我而言,一本能够帮助我提升产品设计能力,并最终为用户创造更好体验的书籍,是极其宝贵的。

评分

我是一名对教育信息化和学习科学充满热情的教育工作者,一直思考如何利用数据来优化教学过程,提升学生的学习效果。《数据挖掘与应用》这本书,我还没有开始阅读,但它所代表的“数据挖掘”与“应用”的结合,让我对接下来的内容充满好奇。我设想,这本书可以为教育领域的数据应用提供新的思路和方法。我期待书中能够介绍如何利用学生学习行为数据,例如在线学习平台的点击流、答题记录、讨论区发言等,来分析学生的学习模式、识别学习困难点,并为学生提供个性化的学习建议。我希望能看到书中能够探讨如何构建预测模型,以识别有潜在辍学风险的学生,并及时进行干预。此外,我也非常关注如何利用数据分析来评估教学方法的有效性,以及如何为课程设计提供数据支持。对我而言,一本能够帮助我更好地理解和利用数据,从而提升教育质量的书籍,是非常有价值的。

评分

我是一名对人工智能和大数据应用充满好奇的科技爱好者,一直关注着数据如何改变我们的生活和工作。《数据挖掘与应用》这本书,我还没有打开,但它所承载的“数据挖掘”与“应用”这两个关键词,就已经让我对接下来的阅读充满了期待。我设想,这本书会从宏观的角度,向我展示数据挖掘的魅力,以及它如何渗透到我们生活的方方面面。我期待书中能够有精彩的案例,讲述如何利用数据分析来改善医疗服务,如何通过智能推荐来丰富我们的娱乐体验,如何利用城市数据来提升交通效率,甚至如何通过分析社交媒体数据来预测社会趋势。我希望这本书能够用通俗易懂的语言,解释那些看似高深的技术概念,让我能够明白“大数据”究竟意味着什么,以及“数据挖掘”是如何实现这些神奇的应用的。对我来说,一本能够激发我学习兴趣,让我看到科技带来的无限可能性的书籍,是非常宝贵的。

评分

如果多一些案例就更好了

评分

OKOKOKOKOKOKOKOKOKOKOKOK

评分

这本书中的SAS程序给的特别详细

评分

不错的书籍,可以一看。

评分

教材很新,价格合适。

评分

评分

数据挖掘好书

评分

唯一有点用的是里面提到的数据集,可以找来分析。

评分

有些论坛说这本书不错,买来后看了看,觉得比较一般把,很多东西讲的不细致,不过后面的sas程序不错的

相关图书

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 book.teaonline.club All Rights Reserved. 图书大百科 版权所有