发表于2024-12-24
数据是未来的新石油
风靡斯坦福大学的社交数据革命课
首席科学家、大数据专家心血力作
简体中文版全球同步上市
阿里巴巴、谷歌、脸谱网、沃尔玛、桥水基金正在应用的数据挖掘和机器学习技术
后隐私经济时代的全新游戏规则
社交数据的革命使之前从未量化或无法量化的一切事物都能被量化。当我们有能力对世界上一切事物的数据进行挖掘,在透明性与主动性方面行使我们的权利时,我们的数据将服务于我们。
《大数据和我们》告诉我们,每当我们在谷歌上搜索某个问题,在脸谱网上跟某人互动,用优步打车去某处,甚至打开一盏灯时,我们都在产生和分享社交数据。无论是被动还是主动分享的数据、强制还是自愿分享的数据、精确还是粗略的数据,社交数据的总量呈指数增长趋势。
在此背景下,数据科学家化身为侦探与艺术家,通过人们留下的电子踪迹为他们绘制出越发清晰的行为素描画,发现人们的偏好或倾向,以及预测人们可能会购买何种商品。
银行通过数据来评定我们的信用等级,保险公司通过数据来评估我们的风险水平,雇主通过数据来决定是否雇用我们,但作为个体,我们却并未充分受益于数据财富。
我们每天都会做出很多决定,我们今天的行为方式可能会影响我们今后几十年的选择,但很少有人能在短期或长期内观察到自己的所有行为或分析出这些行为将产生何种影响。随着我们逐渐认识到社交数据的价值,《大数据和我们》的作者认为,我们的生活不应由数据来驱动,而应让数据为我们的生活服务。
在这个时代的转折点上,人们正在定义创建数据的人与把数据转化成产品和服务的组织之间的关系。不仅游戏规则发生了改变,这个新游戏还要求我们重新界定客户与零售商、投资者与银行、雇主与雇员、患者与医生、学生与老师、公民与政府之间的关系。在《大数据和我们》中,作者总结了自己多年来在商业、教育、医疗、旅游和金融领域做咨询的经验,并在此基础上提炼出大数据如何更好地服务于普通大众的观点。
安德雷斯·韦思岸(Andreas Weigend),世界上杰出的大数据、移动社交技术和消费者行为专家之一,美国首席科学家。
他在美国斯坦福大学、加州大学伯克利分校和中国复旦大学任教,还是社交数据实验室(Social Data Lab)的创始人和负责人。
他住在加利福尼亚旧金山。
序 言 当你的一切都被记录在案时 // VII
引 言 社交数据革命 // 001
第1 章 培养数据素养
数据挖掘的力量 // 020
你的数据有什么价值? // 024
老虎机与挑剔的相亲者 // 031
通过机器学习发现错误 // 034
用数据模型辅助决策 // 038
实验!实验!实验! // 043
第2 章 数字身份与真实身份
隐私权简史 // 053
从密不透风到公之于众 // 057
在互联网上,所有人都知道你是谁 // 061
使用假名的利与弊 // 067
真实的信号 // 074
隐私权和责任心不可兼得 // 078
第3 章 社交图谱与信任系数
大数据时代的人际关系 // 090
“动态信息”功能与“分享所爱”计划 // 097
为拥有数据的人提供服务 // 101
社交数据的影响力有多大 // 111
信任的价值 // 119
建设积极的决策环境 // 127
第4 章 传感器数据大爆炸的时代
如何充分挖掘传感器数据的价值 // 138
雇用私家侦探的做法过时了! // 143
人工智能时代的读心术 // 155
特克斯勒消逝效应与专注力 // 162
一次杜撰出来的“度假之旅” // 171
第5 章 计算隐私效率与数据回报
用户访问自己数据的权利 // 180
用户检查数据挖掘过程的权利 // 186
用自己的数据投票 // 205
第6 章 让数据为你服务
拥有修正数据的权利 // 213
拥有对数据进行模糊处理的权利 // 219
拥有用数据开展实验的权利 // 224
拥有自主导入和导出数据的权利 // 229
人类擅长的事和机器擅长的事 // 234
第7 章 把未来创造出来
按照你自己的需求购买产品与服务 // 240
金融的未来 // 245
公平的职场 // 250
在数字课堂上学习 // 258
精确地界定我们对数据的需求 // 262
决策的量化 // 271
后 记 走出洞穴,沐浴阳光 // 277
致 谢 // 281
人工智能时代的读心术
加利福尼亚大学旧金山分校的心理学荣誉退休教授保罗·艾克曼(Paul Ekman)一直在研究6种基本情感的生理效应。这6种情感分别是生气、伤心、害怕、蔑视、惊讶和愉快。艾克曼让来自5个不同国家(智利、阿根廷、巴西、日本和美国)的人看这6种情感状态的照片,并观察他们有何反应。他预测文化环境的不同会导致人们的反应各异,但结果证明他错了。这个实验重复了许多次,他发现人们在看照片时都会产生相同的表情:与生气相关的是眉头紧锁,眉毛和嘴角下垂表示看到的是伤心的照片,皱鼻子表示蔑视,与真诚笑容相关的是眼角纹。(礼节性假笑——因为泛美航空公司的乘务人员总是面带这种笑容,因此又被称作“泛美式微笑”——往往只有嘴部有变化。)1978年,艾克曼与他的同事华莱士·弗里森(Wallace V. Friesen)通过总结他们观察到的所有表情,建立“面部表情编码系统”(FACS)。根据FACS,几名机器学习研究人员开发出了人脸识别软件。
图4–1·真诚微笑(左)与礼节性微笑(右)的对比。人在真正高兴时,
他的眼角与嘴角的肌肉都会运动,导致皮肤产生皱纹
资料来源:由保罗·艾克曼博士和保罗·艾克曼有限责任公司提供。
艾克曼假设,情感具有普遍性,因为情感是反映我们的心理状况和彼此关系的真实信号。随着实地研究与实验的进行,他发现每种基本情感还与其他生理指标有关,例如心率、呼吸率、血流量和肌张力等。有时,人们的情感变化非常快,如果不注意,甚至难以捕捉到情感变化的过程。这些“微表情”常常意味着这个人不想表露自己的情感,或者他没有意识到自己的这种情感。由于这些表情稍纵即逝(持续时间大约只有1/5秒),没有经过专业训练的话,是很难发现的,需要借助回放视频才能看到。
艾克曼曾经在圣迭戈一家名叫Emotient的公司担任顾问,该公司开发出了可以从摄像头记录的原始数据中实时识别情感的软件。2007年,Emotient公司推出的第一个商业应用程序是 “笑脸检测程序”,可以安装到索尼数码相机上。当取景框里的人露出笑容时,该程序会立即抢拍。随着Emotient公司的算法不断进步,一台高清照相机就可以监控同处一室的400人),同时“读取”他们脸上的微表情。该公司还打算将这款软件推广到医学疗域,用于捕捉患儿脸上的痛苦表情。事实上,研究表明,在捕捉身体不适的真实信号这个方面,计算机强于人类。Emotient公司与谷歌早期合作开发的一种眼镜应用程序被推销给公司管理者,帮助他们了解员工的精神面貌,以及情感对顾客购买行为(买什么?从谁那儿买?)的影响力。2016年1月,Emotient公司被苹果公司收购。
伦敦的Realeyes公司也引进了艾克曼的研究成果,以评估人们在看到广告视频时的面部表情。广告显示屏可能是某个人的电脑显示器,也可能是安装在公共场所的显示屏。电子产品生产商LG开展的“舞台恐惧症”广告活动就以男厕所为广告背景。厕所的小便池上方装有LG显示器,当有男子来小便时,屏幕上就有一名女子把广告推开,摆出一副能看见男子小便的姿态。据Realeyes面部表情分析摄像头的观察,这些男子的表情由困惑、害怕变成高兴。分析结果甚至表明,有一部分男子在视频开始和结束时都表现出厌恶的情绪。麻省理工学院媒体实验室情感计算小组找到Affectiva公司,合作研发可以帮助孤独症患者解读他人面部表情的情感警报系统,从而与Realeyes公司形成了竞争关系。商业客户请Affectiva公司检测人们对广告视频的情感反应,民意调查公司则用它来统计电视辩论期间政治候选人的支持率情况。
在收集、分析人的情感数据时,除面部表情外还有众多数据来源。人说话的音调、音量(声强)、语音质量、持续时间和语速等也能反映人的情感状况。为了创建情感语音检测系统,一些研究人员从5个说英语的国家(澳大利亚、肯尼亚、印度、新加坡和美国)雇用了100名演员,请他们声情并茂地把一些简单的文本(诸如日期和数字)表达出来。
研究人员认为,这些语音表达过于“装腔作势”,不能成功地训练机器学习系统实时处理真实的人际对话。一些近期的研究旨在利用客户呼叫中心的海量数据,建立情感图书馆。呼叫中心安排业务代表在接听电话的过程中记录客户的情感状态,在音频记录上添加标签,以创建用于机器学习的数据。人们已经在利用这些添加了恼怒、温和、激烈、中性等标签的语音(甚至包括“啊”、“哦”、“嗯”、“好的”等非常简单的言语),对语音识别系统进行训练。在某些情况下,语音信号与用户满意度调查数据相结合,可以验证情感检测系统的准确性。
云联络中心服务提供商LiveOps公司、人工智能公司Mattersight等利用语音检测软件为客户安排服务代表。如果客户有很重的地方口音,就为他安排一名家在该地区的客服代表,让他们进行更有本地特色的交流吧。如果客户听到呼叫中心的选择菜单后立即做出选择,这可能意味着这名客户十分生气。应该怎么办呢?把他的电话转接给善于处理难题、应对挑剔客户的服务代表。如果客服代表已经竭尽全力,仍没让客户平静下来,而且客户的声音越来越大、越来越尖利,这个呼叫就会升级,交由业务经理处理。除了这些音频数据,LiveOps公司还会针对客户投诉搜索社交媒体和其他数据源,寻找更多的背景资料。有的客户很快就和呼叫中心的客服代表建立了融洽的关系,这次投诉可能就不难处理,而且客服代表还有可能说服这名顾客购买产品或服务。人工智能公司Mattersight宣称可以根据客户的性格类型安排客服代表,为客户提供更有针对性的服务。该公司利用交流记录分析对话内容与方式,把客户分为“开朗、尖刻、严肃、内向”等类型,并把客户的电话转接给善于同这种性格类型的客户打交道的客服代表,以增加顾客的满意度。这种安排的依据是性格类型,而不是呼叫本身的特点。该公司的很多客户都是需要经常与客户交互的企业,例如医疗保健企业、保险公司和电话公司。
算法还给那些缺乏表达能力的人带来了福利。人们常说,父母可以分辨婴儿哭声传递出的情感需求。但总的来说,这种能力不具有科学性,显而易见的原因就是可供父母学习的样本太小。在与周围世界交互的过程中,人和机器为交互数据建立模型的方式存在若干不同之处,样本大小是一个明显的不同点。参与开发谷歌无人驾驶汽车项目、教育领域初创企业优达学城(Udacity)的联合创始人塞巴斯蒂安·特隆(Sebastian Thrun)指出,驾驶员凭借个人经验开车,而谷歌无人驾驶汽车可以从所有无人驾驶汽车犯下的错误中汲取教训,提高驾驶技术。人主要是从自己的成败经历中吸取经验,社交图谱中其他人的成败仅起到辅助作用。此外,他们还可以征求专家的建议。相比之下,机器不仅可以直接从它们犯下的错误中吸取经验,还可以从其他机器所犯的错误中得到教训。
IBM的迪米特里·坎尼夫斯基(Dimitri Kanevsky)和同事开发的一项专利技术,可以从婴儿的啼哭声和大脑、心脏及肺部活动中采集数据,开展学习。婴儿哭闹的原因有很多,有时是为了引起注意,有时是因为孤独。数据服务商可以帮助父母们更准确地监控孩子的情感状态,并依此做出决策。
将来,除了面部表情、啼哭声的音调和音量以外,应用程序还可以根据其他更微妙的线索探查我们的情感状况。一些活动追踪系统(例如Fitbit记录器、Withings Pulse智能手环、佳明智能手表)可以记录人们的生命体征,包括静态心率和运动心率,这些生命体征可能与某些情感状态有关。血液流经身体时,皮肤上的红色会加深,因此利用红外传感器(例如,苹果手表后盖上的传感器)就可以测心率。因为佩戴在身体上的设备在推挤碰撞时容易松开,所以很多医院为了得到更准确的测量结果,改用红外摄像头监控病人的心跳。Xbox家用电视游戏机利用红外线追踪玩家身体活动的幅度,实时了解他们兴奋或无聊的程度,并据此推出了一个又一个新游戏。
在生物医学层面上,情感更难遁形。验血可以发现与害怕、紧张、疲劳有关的生物化学物质,验汗也可以实现相同的目的。在美国国防部的资助下,通用电气公司成功地研发出Fearbit,它是一种可以吸附到皮肤上的无线传感器,外形与邦迪创可贴相似。朝向皮肤的那一面是纳米结构,可以吸附特定的生化物质。如果这些生化物质的含量升高,它还会发出警报。“嗅探”空气中化合物的传感器的体积非常小,可以安装到手机中。用石墨烯制造的传感器具有非常高的灵敏度,可以检测浓度在10亿分率量级的分子。早前的一项研究表明,我们甚至可以通过人的呼吸检测他的紧张情绪。
在具体环境中综合使用多种情感传感器,可以产生革命性的效果。例如,麻省理工学院媒体实验室情感计算小组的几名研究生提议研发“AutoEmotive”(自动电子功能)系统,将几种既有的传感器嵌入汽车操作系统,改善驾驶员的健康与安全状况。在方向盘上安装传感器,可以监控与紧张情绪有关的重要生物指标,包括掌心出汗、心率、呼吸和手掌抓握力等。利用麦克风监控所有语音的音调和音量,可以判断警报针对的是暂时性情况还是不断加剧的沮丧情绪。一台车载记录仪可以提供驾驶员微表情的精准数据。如果驾驶员表现得十分紧张,数据服务商就会给他推荐一条更通畅的路线,或者让汽车音响播放舒缓的音乐。驾驶员可以从汽车仪表盘背景灯的颜色变化了解自己的情绪状态,并根据生物反馈做出更明智的决定。AutoEmotive的目标是帮助人们在极易导致“视野狭窄”的高度紧张的情况下做到应对自如,这与埃里克·霍尔维茨为美国国家航空航天局地面控制台设计数据优化显示系统的初衷不谋而合。
在思考如何将情感分析应用到决策活动中时我们必须清楚,关于在特定情感状态下身体内部有何变化的问题,心理学家还没有形成一致意见。分歧最大的问题与情感体验的主观性有关。当前的局面与个人的经历对情感反馈的影响到底有多大?如果表现出害怕的几个特征,比如呼吸与心率加速、流汗、血压升高等,一定是因为害怕吗?出现这些状况,或许是因为你恐惧、震惊,或者感到焦虑不安、心烦气躁,但也有可能是因为你刚吃了一颗糖,而且正在锻炼。
保罗·艾克曼指出,解读情感时须防范“奥赛罗的错误”。在莎士比亚的戏剧《奥赛罗》中,奥赛罗指责妻子苔丝狄蒙娜与卡西奥有染,并告诉她已经派人杀了卡西奥。看到妻子脸上害怕与痛苦的神情,奥赛罗认为这表明她真的有罪。他想,很显然,她感到害怕是因为奸情被揭穿了,她感到痛苦则是因为她在哀悼死去的情人。艾克曼指出,苔丝狄蒙娜在那一刻确实表现出了害怕与痛苦的情绪,但是原因与奥赛罗猜测的并不一样。她感到害怕是因为丈夫妒火中烧、失去理智,她感到悲伤是因为她无法自证清白、自知难逃一死。奥赛罗犯下的令人扼腕的错误说明了一个事实:检测某种情感的生理指标比较容易,而发现其背后的原因却难得多。在利用情感数据进行决策时,无论解读这些数据的是人还是机器,都必须时刻牢记奥赛罗的教训。
面部表情、语音线索生理学数据都是真实的信号,情感识别系统可以从中发现我们大多数人都无法发现的规律。如果可以实时获取经过挖掘的情感数据,我们的生活将会大大改观,但是,风险也会因此增加。你是否想了解自己在第一次约会时或者面试之前、之中和之后的情感状态?检测任一阶段的情感状态,都有可能对接下来的行动产生深远的影响。在面试时,如果面试官告诉你他正在使用情感检测应用程序,你的情感状态是否会发生变化,你会更加紧张还是更加自信?在这种情况下,你通常会竭力隐藏自己的情感,但如果应用程序利用你脸上的微表情来寻找“蛛丝马迹”,你的所有情感反应肯定会暴露无遗。
我在前文中指出,交流各方都应该有权查看交流记录。如果你打给客服代表的电话被录音,你就有权得到这份录音。但是,由于受情感检测程序监控的交流越来越多,我们无法准确地判断仅仅获取这些原始录音对我们是否公平。如果企业利用语音数据探测你的情绪,并且根据分析结果采取不同的方式处理你的来电,那么它们应该为你提供哪些信息呢?如果你真实的情感体验不同于算法的解读,又会导致什么样的结果呢?
此外,如果我们希望借助情感状态的精炼数据,改进我们与亲朋好友或同事之间的交流,仅凭戴在手腕上的传感器或者对准脸部的摄像头是无法实现这个愿望的。我们还需要想办法充实传感器数据,比如,详细描述并公开分享我们的感受,为机器检测的生理指标添加个性化标签。为了深刻了解我们的行为规律,并帮助我们更好地做出决策,我们可以心甘情愿地公开表露哪些情绪和情感呢?
……
社交数据革命
如何确保数据会为我们服务?
每一场革命最初都是一个人头脑中的一种思想,一旦同一种思想在另一个人的头脑中出现,它对于这个时代就变得至关重要了。
——拉尔夫·沃尔多·爱默生(Ralph Waldo Emerson)
早晨6点45分,手机闹钟将我叫醒。于是,我拿起手机,一边浏览电子邮件与脸谱网信息,一边走进厨房,我美好的一天就此开始。手机上的全球定位系统应用软件会记录我的位置变化,并显示出我向东、向北移动了几米。我给自己倒了一杯咖啡,然后走出厨房。这时,手机上的加速计会给出我的行走速度,气压计会记录我何时上楼。由于我在手机上安装了谷歌的应用程序,因此谷歌公司拥有我的这些数据的记录。
吃完早饭后,我要去斯坦福大学上班。在我关灯并拔下移动设备的电源插头后,电力公司安装的“智能”电表就会知道我的用电量开始下降了。当我打开车库门时,电表会探测到与之相匹配的使用签名。当我开车上路时,电力公司已拥有足够的数据断定我已不在家中。当我的手机从另一个基站接收信号时,通信公司也知道我出门了。
驾车行驶在路上时,如果我闯了红灯,安装在街道拐角处的摄像头就会拍下我的车牌号。谢天谢地,我今天遵纪守法,不会收到交通罚单。但在行驶过程中,我的车牌会多次被拍摄。有些摄像头属于当地政府,有些则属于私营公司,它们通过分析数据了解人们的驾驶习惯,并将此作为产品出售给警方、开发商及其他利益群体。
我到达斯坦福大学时,会使用手机上的“无忧停车”应用支付停车费。停车费自动记入我的银行账户,同时学校的停车管理小组会收到我的付款通知,这样一来,校方与我的开户银行都知道我在上午9点03分到达校园。由于我的手机不再以汽车的行驶速度移动,谷歌公司会推断出我已停车并记录下我的位置,以便我日后查询当时的位置记录。我也可以通过美国车险服务商Metromile公司的保险应用查询我当时所在的位置,这款应用通过我的车载诊断系统实时记录我的驾驶数据。这让我可以立刻发现今天的汽车燃油效率较低——每加仑汽油行驶了19英里,我此次通勤花了2.05美元。
上完课后,我打算和旧金山的新朋友见个面。我们在“虚拟世界”中见过面,当时我们共同的朋友在脸谱网上发了帖子,我们都对它进行了评论,也很赞赏对方的看法。之后,又发现我们在脸谱网上有30多个共同好友,所以我们确实应该见一面。
谷歌地图预计我将在晚上7点12分到达目的地。与往常一样,它的预测误差只有几分钟。这位朋友居住公寓的一层是一家销售烟草产品和吸食大麻器具的商店,而我的智能手机上的全球定位系统应用软件无法区分公寓和商铺。我的车载导航与谷歌导航都告诉我,我今天晚上去了一趟毒品商店——这是我上床前查阅第二天的天气预报时,谷歌广告推送告诉我的。
这不只是一场社交数据革命。
将欲取之,必先予之
大数据和我们:如何更好地从后隐私经济中获益? [Data for the People] 下载 mobi epub pdf txt 电子书 格式
大数据和我们:如何更好地从后隐私经济中获益? [Data for the People] 下载 mobi pdf epub txt 电子书 格式 2024
大数据和我们:如何更好地从后隐私经济中获益? [Data for the People] 下载 mobi epub pdf 电子书可以
评分值得做数据分析的人去看一看
评分还没看,送货快,没活动,有点遗憾
评分包装很好,物流很快,非常满意
评分好
评分好书好书,喜欢喜欢,这么可以,喜欢不错不错不错不错不错????
评分东西不错,物流好,真的不错,值得推荐,下次还会购买的,挺好的
评分值得一看的图书
评分好书好书,喜欢喜欢,这么可以,喜欢不错不错不错不错不错????
大数据和我们:如何更好地从后隐私经济中获益? [Data for the People] mobi epub pdf txt 电子书 格式下载 2024