内容简介
如果想成为一名应用定量分析研究者,分析抽样或其他定量数据集,以支持所涉及领域的大量文献知识,*后发表你的研究结果。本书正是为此所设计。它是基于两个分学期的课程和作者在加州大学洛杉矶分校过去30多年的教学,并跟踪社会学和其他社会科学领域定量分析方法新发展成果的基础上成书的。本书的特点是没有复杂的数学推导,通过大量的实例领会社会科学研究的基本逻辑和设计思想,图文并茂,浅显易懂,把握前沿新社会科学成果。
作者简介
Donald J. Treiman是加州大学洛杉矶分校(UCLA)社会学荣休杰出教授、UCLA加州人口研究中心前主任。他从Reed College获得学士学位(1962年),在芝加哥大学获得硕士和博士学位(1967年)。在研究生阶段,他大多数时间在芝加哥大学全国民意研究中心(National Opinion Research Center, NORC)学习和工作。在那里,他在调查研究方面受到了良好的训练,并积累了宝贵经验。之后,他任教于威斯康辛大学,在那里决心成为一名真正的社会人口学家,并将人口和生态研究中心当作他的学术之家。此后,他在哥伦比亚大学工作过一段时间。1975年,他转到UCLA任教直到现在。在此期间,他在其他一些地方做过短暂访问,比如在国家科学院/国家研究理事会担任一个研究委员会的主任(1978~1981年),在美国人口普查局(1987~1988年)、行为和社会科学高等研究中心(1992~1993年)、荷兰人文和社会科学高等研究院(1996~1997年)任研究员。
唐启明(Donald J. Treiman)是加州大学洛杉矶分校(UCLA)社会学荣休杰出教授,UCLA加州人口研究中心前主任。他在Reed College获得学士学位(1962年),在芝加哥大学获得硕士和博士学位(1967年)。研究生阶段,他大多数时间在芝加哥大学全国民意研究中心(National Opinion Research Center,NORC)学习和工作。在那里,他受到良好的调查研究方面的训练,并积累了宝贵的经验。之后,他任教于威斯康星大学,决心成为一位真正的社会人口学家,并将人口和生态研究中心当作他的学术之家。他在哥伦比亚大学也工作过一段时间。1975年,他转到UCLA任教至今。在此期间,他到其他一些地方做过短暂访问,如在国家科学院/国家研究理事会担任一个研究委员会的主任(1978~1981年),在美国人口普查局(1987~1988年)、行为和社会科学高等研究中心(1992~1993年)、荷兰人文和社会科学高等研究院(1996~1997年)任研究员。唐启明教授的职业生涯从学生时代就已经开始,当时他的研究方向是社会分层和地位获得,并主要侧重于跨国比较研究,这一直是他的研究兴趣所在。他与荷兰同事Harry Ganzeboom一直从事一项比较分析20世纪世界各国地位获得过程差异的长期项目。截至目前,他们编撰了一个跨越上半个世纪、源自50多个国家的300多个抽样调查的文档。除了该比较项目之外,唐启明教授在南非(1991~1994年)、东欧(1993~1994年)和中国(1996年)都做过大规模的全国性抽样调查,内容都是关注社会不平等的各个方面。他现在的研究已经转向一个更偏于人口学的方向。2008年,他在中国开展了一项全国性抽样调查,主要关注国内人口迁移的影响因素、机制和结果。他目前正参与另一项有关中国的调查,主要关注迁移对留守儿童和随父母迁移儿童的影响。
任强,北京大学人口研究所硕士、博士,北京大学社会研究中心副教授、北京大学中国社会科学调查中心副主任。研究兴趣包括环境与健康、儿童发展,以及与生育、死亡、劳动力、住房、出生性别比等相关的人口问题。目前作为负责人之一主要参与“中国家庭追踪调查”项目。在儿童碘缺乏病控制方面有突出学术贡献,2003年获得美国儿科学会杰出成就奖。发表学术文章近100篇。
目录
表目录/1
图目录/1
英文版序言/1
中文版序言/5
译者序言/7
导 言/11
第1 章 列联表基础/1
本章内容/1
通过具体实例介绍全书/1
列联表/9
本章小结/19
第2 章 列联表中的变量关系/20
本章内容/20
分析的逻辑/20
抑制变量/24
相加效应和交互效应/25
直接标准化/28
关于统计控制与实验的最后说明/40
本章小结/42
第3 章 列联表的拓展/44
本章内容/44
重新组织表格以获取新的信息/44
何时用“反向”百分数表/47
当因变量为均值时的列联表/49
相异指数/54
如何描述列联表/57
本章小结/59
第4 章 用计算机进行数据操作/60
本章内容/60
引言/60
如何组织数据文件/61
变换数据/67
本章小结/75
附录用Stata进行分析/75
用Stata进行分析的一些建议/75
一些特别有用的Stata 10.0命令/80
第5 章 相关和回归(常规最小二乘法)介绍/83
本章内容/83
引言/83
量化某种关系的大小:回归分析/85
评估某种关系的强度:相关分析/87
相关和回归系数之间的关系/90
影响相关(和回归)系数大小的因素/90
相关比率/95
本章小结/97
第6 章 多元相关和回归(常规最小二乘法)介绍/99
本章内容/99
引言/99
一个具体例子:中国人识字水平的决定因素/109
虚拟变量/115
组间比较的方法/118
比较模型的贝叶斯方法/127
独立检验/130
本章小结/131
第7 章 多元回归技巧:处理特殊分析问题的技术/132
本章内容/132
非线性变换/132
检验系数的等价性/140
趋势分析:检验线性假设/142
线性样条/146
将系数表示为总均值的偏差(多分类分析)/155
表示虚拟变量的其他方法/158
分解两个均值之差/163
本章小结/169
第8 章 缺失数据的多重填补法/171
本章内容/171
引言/171
一个具体例子:在俄罗斯,文化资本对教育获得的影响/177
本章小结/183
第9 章 抽样设计与调查估计/184
本章内容/184
调查样本/184
设计效应/196
结论/210
本章小结/210
第10 章 回归诊断/212
本章内容/212
引言/213
一个具体例子:地位获得的社会差异/216
稳健回归/224
自举法和标准误/226
本章小结/228
第11 章 测度构建/230
本章内容/230
引言/230
效度/231
信度/232
测度构建/235
含误差变量回归/247
本章小结/248
第12 章 对数线性分析/249
本章内容/249
引言/249
选择一个合适的模型/251
简约模型/264
文献注释/279
本章小结/281
附录12.A 效应参数的推导/281
附录12.B 最大似然估计法介绍/283
正态分布的均值/284
对数线性参数/285
第13 章 二项逻辑斯蒂回归/286
本章内容/286
引言/286
与对数线性分析的关系/288
逻辑斯蒂回归的第一个具体例子:预测枪械威胁的发生率/289
第二个具体例子:日本的教育递进率/298
第三个具体例子(离散时间风险率模型):初婚年龄/302
第四个具体例子(案例-对照模型):在俄罗斯,谁被任命为政党当权人物?/309
本章小结/312
附录13.A 关于对数和指数的一些代数基础/312
附录13.B Probit分析介绍/312
第14 章 多项和序次逻辑斯蒂回归及tobit回归/317
本章内容/317
多项logit分析/317
序次逻辑斯蒂回归/323
针对删失因变量的tobit回归(及同类方法)/332
针对受限因变量的其他分析模型/339
本章小结/340
第15 章 改进因果推断:固定效应与随机效应模型/341
本章内容/341
引言/341
针对连续型变量的固定效应模型/343
针对连续型变量的随机效应模型/349
一个具体例子:中国收入的决定因素/351
针对二分结果变量的固定效应模型/353
针对二分结果变量的随机效应模型/355
一个二分结果变量的具体例子:迁移对南非黑人入学的影响/355
文献注释/358
本章小结/358
第16 章 思考与未来的方向:研究设计和解释问题/359
本章内容/359
研究设计问题/359
概率抽样的重要性/376
最后一个建议:养成良好的专业素养/379
本章小结/384
附录A 书中所用数据的说明和下载地址/385
附录B 用综合社会调查数据做调查估计/388
参考文献/393
索 引/418
前言/序言
英文版序言
这本书是关于如何开展理论导向的量化社会研究的——也就是说,通过社会研究检验想法。它源自我在加州大学洛杉矶分校(UCLA)30多年教授来自社会学、其他社会科学以及以社会科学为基础的专业学院(公共卫生、教育、社会福利、城市规划等)的研究生的课程。此课程是随着社会科学量化方法的发展演化而来的;早期课程只讲授本书的前一半内容(前7章),之后逐年增加新资料。有意思的是,从一开始我就一直保持同样的授课模式——在为期20周的学期内,每周授课三小时,并布置一次练习,期末要求学生在最后四周内提交一篇学期论文——以期不断提高社会科学领域的研究生在量化研究方面的能力。当然,本书也归功于多年来活跃的课堂讨论,尤其是在一些细微和复杂的方法问题上。
读完本书,你们或许能够知道如何从本质上理解量化数据。也就是说,你们能够在自己所学的领域很好地准备可发表的论文,以及一流的毕业论文章节。当然,总是有更多的东西需要学习。在最后一章(第16章),我讨论了一些高级方法,这些方法超出了数据分析初级课程所能涵盖的范围。
本书主要对明确定义的总体的代表性样本数据进行分析,当然也涉及一些特例。总体几乎可以包括任何东西——人口、正式组织、社会、职业、陶瓷碎片,或任何其他事物;分析的问题实质上是一样的。本书只是附带地提到数据收集方法,原因很简单:本书篇幅已经很长,没有足够的篇幅同时介绍数据分析和数据收集方法。因此,你们可以查阅其他的系统介绍数据收集方法的文献。我强烈建议你们应该在选修了数据分析课程之后而不是之前去做这件事情,因为在设计数据收集时主要问题是决定收集什么,这意味着你们首先需要知道如何开展你们的分析。当然,你们也可以通过参与调查(可能无报酬)来学习数据收集的各种实用细节,并坚持参与每个过程——即使你们的参与毫无意义。
这本书涵盖了多种技术,包括表格分析(tabular analysis)、针对表格数据的对数线性模型(log-linear models)、各种形式的回归分析(regression analysis)、回归诊断(regression diagnostics)和稳健回归(robust regression)、处理缺失数据(missing data)的各种方法、逻辑斯蒂回归(logistic regression)、用于构建测度的因子分析技术(factor-based techniques)和其他技术,以及作为一种因果推论方法的固定效应和随机效应模型。但是,这不是一本统计学教科书;本书强调使用这些方法对社会如何运行进行研究,并得出相关结论。因此,本书是针对选修了第一年研究生统计课程之后的社会科学学生设计的。虽然书中有许多方程,但这是为理解统计方法的原理并灵活运用它们所必需的。本书的重点在于应用,因此书中提供了许多实际例子,且大多数引自我自己的研究。除了我自己收集的抽样调查数据之外,我也大量利用了美国综合社会调查(General Social Survey)数据——一项为研究和教学目的而设计的综合调查。附录A介绍了许多文献都使用过的主要数据集,并提供了如何获取数据的信息;它们都可以免费获得。
合理使用此书仅需的前提条件是,选修过一门初级研究生水平的社会科学统计学课程,认真思考和努力工作的意愿,以及具备高中代数知识的基础——无论是没有忘记还是重新学习。除了少数例外(涉及一点微积分和矩阵代数的内容),所有数学内容都没有超出高中代数知识的范围。如果你们对高中代数知识已经生疏了,可以参阅Helen Walker的Mathematics Essential for Elementary Statistics和W.L.Bashaw的Mathematics for Statistics。这两本书很容易找到。虽然最近也有类似的书,但中学代数的内容没有变化,所以版本无关紧要。这些书可以从amazon.com网上和其他许多地方购买。
本书中使用的统计软件包是Stata(版本10)。用于计算的命令文件(Stata的专业术语-do-文件)、结果文件(-log-文件)和辅助计算机文件可以从网站www.josseybass.com/go/quantitativedataanalysis下载。
某些计算的具体细节通常只能从下载的-do-和-log-文件中找到,所以务必要下载并仔细研究它们。这些文件会根据Stata的版本进行更新。
我在教学和此书中都使用Stata,因为它已迅速成为一流社会学系和经济学系优先选择的统计软件包。这不是偶然的。Stata是一个运算速度快和效率高的软件包,它包括绝大多数社会科学家感兴趣的统计方法,并且能快速地添加新命令。虽然现在有许多统计软件包可供使用,但目前最有竞争力的三个软件包是Stata、SPSS和SAS。其中,Stata明显优于SPSS——它速度快,更加准确,且应用广泛。虽然SAS很强大,但不如Stata那样直观,且更不易学习(和讲授)。此外,本书可以很容易地与SPSS或SAS结合起来使用,只需简单地转换Stata-do-文件中的句法〔我已经尝试做了一些,通过写出相应的Stata句法重现Allison基于SAS对固定和随机效应模型的完美指令(Allison,2005)〕。
给教师的建议
当你们做课程设计时,我在讲课中是如何使用这些资料的一些经验或许对你们有帮助。
像前面提到的,以本书为基础的课程持续两个小学期(two quarters,共20周)。我每周讲一次3个小时的课,并布置一次作业。讲完课后,我亲自批阅这些作业;但随着学生人数的增加,我请助教(从以前课上表现好的学生中选择)协助我批阅作业,并解答学生在计算和统计学方面的疑问。最近几年,我两个小学期讲17周课,前16周每周布置作业,期末要求学生提交一篇学期论文。对学生论文的第一份草稿,我力争效仿期刊投稿的过程阅读并写出评论。因此,在我的课上,每个人都会收到“修改和再提交”的反馈。我鼓励学生根据我的反馈意见继续完善他们的学期论文,并在最后一次作业结束后两周提交第二份草稿。
最初的练习在一定程度上是为引导学生进入分析过程而设计的,后来的一些练习也是如此。但是,后面的练习形式更自由,要求学生“像书中讲解的那样进行分析”。对于有明确答案的练习,我提供了完整而详细的答案——类似于统计学习题集。
课程大纲、每周的练习以及练习详解可以从网站www.josseybass.com/go/quantitativedataanalysis下载。
致 谢
像前面提到的,这本书是在UCLA与许多不同年级的研究生互动的基础上不断完善起来的,他们对每一章都做出了重要贡献,并通过详细评论或提出疑问的方式,指出讲解中存在的问题。如果没有他们,就不会有此书,因为我从来没有想到自己会写一本教材,所以我非常感谢他们。尤其是Pamela Stoddard真正促成了这本书以当前的形式出版,之前她在飞机上偶遇Jossey-Bass的图书编辑Andrew Pasternack,谈到她的教授正考虑将授课的章节写成一本教材。Andy联系我,后来的事情就尽人皆知了。
这门课程最早是与我的同事Jonathan Kelley合作讲授的,20世纪70年代他是UCLA的一名访问教授。第一个练习就是他提供的,课程总的进展,特别是前半部分,大多数归功于他。
我的同事Bill Mason是我多年的统计学导师,他最近从UCLA社会学系和统计学系退休。我经常得益于他对疑难统计问题的洞察力,而且我学到的许多在研究生阶段没有学到的知识都来自旁听他的高级统计课程。另一位同事Rob Mare同样给我很多类似的帮助。我的新同事Jennie Brand在2008年秋接手我的量化数据分析课,她阅读了全部手稿,并提出许多有益的建议。Stata公司作者支持项目部(Author Support Program)的Bill Rising检查了所有Stata的下载-do-文件,并且提出了许多改进和更新的建议,从而保证它们是目前最好的练习。最后,这本书极大地得益于约100名中国学生的仔细阅读,2008年6月我在北京大学给他们讲授这门暑期课程。他们发现了许多未被察觉的错误,并指出一些表述模棱两可的地方,促使我重新完善书中部分内容。
我对研究设计和统计问题的理解,尤其是对因果关系和因果推论的挑战,极大地得益于加利福尼亚人口研究中心(California Center for Population Research)每周举办的讲座。参加讲座的有社会学家、经济学家以及其他社会科学家,特别是来自其他学校的访问学者,大家一起聆听和评论,报告研究进展。这种生动的、跨领域的讨论有几分流动研讨班的味道,我想这应该就是我所想象的学术生活可能和应该的样子。
最后,我的妻子Judith Herschman一直表现出无尽的耐心,只是偶尔问我:“你何时出版你的方法书?”
中文版序言
在过去的15年里,我一直致力于对中国社会的研究。我与中美两国的同事一起在中国大陆组织了两次全国性的概率抽样调查:一次是在1996年,关注中国大陆居民生命历程中所遭遇的不平等情况;另一次是在2008年,关注的是中国国内人口迁移的原因、过程与结果(本书中的许多研究实例都来自1996年的调查数据)。我和一些同事目前正着手计划在中国进行第三次调查,主题是迁移对儿童的影响。自1995年以来,随着访问中国的次数日渐增多,我对中国文化的理解和与中国学生的交往日渐加深。2008年7月,我以本书为教材在北京大学—密歇根大学学院授课,正是在那里我认识了本书的译者任强教授。此后在2010年秋,我在香港科技大学再次用此书授课。两次授课使用的都是本教材的英文版。
有了在北京以及在香港面向中国学生的授课经历,当任强教授提议将这本教材翻译为中文时,我真的非常高兴。这次与任强教授的合作也相当愉快,在此我表示衷心的感谢。同时,我还要感谢香港科技大学的一些研究生(李骏、李兰、宋曦、叶华、张卓妮和郑冰岛),他们校对了全部译稿并在中文措词方面提出了很好的修改意见。虽然我自己不懂中文,但是熟悉汉语的朋友告诉我,在任强教授和这几位同学的辛勤工作之下,翻译工作相当出色。
本书的英文版填补了美国研究生定量社会研究方法出版物中的一个重要空白。尽管在美国,针对社会科学研究的统计教科书很多,但大多数都集中讲述统计的数理基础,很少关注如何在实践中运用这些统计方法来做研究。本书的宗旨就在于弥补这一缺憾,它所面向的是那些已经学习了统计学的入门课程并想将这些统计知识应用到严谨的实证研究中的学生。以前由于缺乏这样的书籍,所以我就自己为学生写讲义材料,后来将这些讲义扩充为一些章节,最后就形成了本书。
我希望本书在中国也会起到同样的作用,使学生作为社会科学研究者掌握或提高定量研究的方法和分析技术。由于中国学生的数学训练比美国学生好,此外,同欧洲的大学一样,中国的大学在本科生
量化数据分析:通过社会研究检验想法 下载 mobi epub pdf txt 电子书 格式