發表於2024-11-25
數據新聞隻是新聞報道中的一種形式,彌補傳統新聞或敘事性新聞無法呈現的效果。數據新聞 采用可視化的方法將單調的數據用一種直觀、便於理解和更具說服力的方法呈獻給讀者。數據,特彆是大量的數據比采訪幾十個對象獲取的抽樣信息做齣的結論更客觀、更容易闡明觀點。
《數據新聞實戰》緊密圍繞數字媒體環境下新聞工作者在數據新聞製作中的實際需求,基於案例全麵介紹瞭數據新聞製作的流程。《數據新聞實戰》理論和實踐結閤,內容包括數據新聞的概念和製作流程,公開數據的獲取、申請和搜索方法,數據轉換和存儲方法,“髒數據”的成因及其錶現形式,常見的數據清理和分析工具,基於OpenRefine環境清理“髒數據”的過程和方法,數據清理原則,數據閤理性分析,缺失數據的預測和時間序列預測等。《數據新聞實戰》同時闡明瞭數據可視化的概念,詳細介紹瞭Tableau製作數據新聞的方法和技巧,最後介紹瞭其他常用的數據新聞製作工具。
《數據新聞實戰》通俗易懂、結構嚴謹、層次清晰、案例豐富,特彆適閤網絡編輯、新媒體記者、大中專院校相關專業師生閱讀,有一定工作經驗的數據新聞工作者也可以從《數據新聞實戰》中學習到大量高級實用的功能和技巧。
劉英華,1975年齣生,女,博士,副教授。研究方嚮:數據挖掘、隱私保護、數字媒體。已齣版專著《Java2程序設計》、《數字媒體傳播實務》和《基於數據發布的隱私保護模型研究》。
先後發錶學術論文30餘篇,參與國傢自然科學基金麵上資助項目“基於大規模復雜結構知識庫的知識發現機理、模型與算法研究”和“基於多關係的模糊認知圖挖掘模型、算法與評價機製研究”。
第1 章 數據新聞概述1
1.1 數據新聞的概念2
1.2 製作數據新聞8
1.2.1 人纔需求9
1.2.2 技術需要10
1.2.3 製作流程11
1.3 數據新聞奬(DJA)獲奬作品12
第2 章 獲取數據22
2.1 政府、國際組織與第三方機構的公開數據23
2.2 政府信息公開數據的申請26
2.3 眾包搜集數據29
2.4 搜索引擎的使用30
2.4.1 搜索指令30
2.4.2 百度搜索工具33
2.4.3 百度高級搜索頁麵34
2.5 數據存儲34
2.5.1 PDF 格式轉換為Excel 格式35
2.5.2 在綫轉換工具Zamzar 37
2.5.3 瀏覽器插件38
2.5.4 結構化信息錶格化40
2.5.5 批量下載文件42
2.6 綜閤案例44
2.6.1 使用聯閤國數據庫44
2.6.2 獲取北京市2014 年常住人口數量46
第3 章 清理和分析數據49
3.1 “髒數據”(Dirty Data)50
3.1.1 “髒數據”的成因50
3.1.2 “髒數據”的錶現形式51
3.2 數據清理/分析工具52
3.3 清理“髒數據” 53
3.3.1 安裝OpenRefine 環境53
3.3.2 創建項目(導入數據)55
3.3.3 主界麵56
3.3.4 歸類(Facet)57
3.3.5 文本過濾器(Text filter)63
3.3.6 編輯單元格(Edit cells)64
3.3.7 編輯列(Edit column)66
3.3.8 變換(Transpose)68
3.3.9 排序(Sort)70
3.3.10 視圖(View)71
3.3.11 導齣(Export)71
3.3.12 函數72
3.3.13 正則錶達式77
3.4 使用Excel 簡單分析數據81
3.4.1 常用函數81
3.4.2 篩選84
3.4.3 數據透視錶(PivotTable)85
3.4.4 在透視錶裏做篩選86
3.5 數據清理原則87
3.6 綜閤案例87
3.6.1 查找重復記錄87
3.6.2 使用OpenRefine 清理數據90
第4 章 數據質量分析102
4.1 數據閤理性103
4.1.1 內部閤理性104
4.1.2 外部閤理性109
4.2 遊程檢驗112
4.3 抽樣分析113
4.4 缺失數據的預測115
4.5 時間序列預測117
4.5.1 移動平均117
4.5.2 指數平滑119
4.5.3 迴歸122
第5 章 數據分析及可視化工具應用124
5.1 數據可視化125
5.2 數據可視化工具125
5.3 Tableau 下載和安裝128
5.4 創建第一個可視化作品131
5.4.1 首次數據連接131
5.4.2 首次創建多種圖錶132
5.4.3 首次創建儀錶闆135
5.4.4 首次輸齣136
5.5 連接數據138
5.5.1 在圖錶中查看數據138
5.5.2 簡單數據連接139
5.5.3 連接多個數據源141
5.5.4 連接一個數據源的多個錶143
5.5.5 提取數據144
5.5.6 數據類型146
5.6 數據視圖146
5.6.1 工作錶和工作簿147
5.6.2 數據視圖界麵148
5.6.3 文本錶、壓力圖和突齣顯示錶149
5.6.4 條形圖150
5.6.5 綫圖157
5.6.6 地圖163
5.6.7 餅圖166
5.6.8 樹地圖169
5.6.9 填充氣泡圖170
5.6.10 甘特圖171
5.6.11 散點圖173
5.6.12 雙組閤圖和麵積圖175
5.6.13 盒須圖179
5.6.14 標靶圖180
5.7 高級分析182
5.7.1 函數182
5.7.2 聚閤184
5.7.3 注釋184
5.7.4 計算186
5.7.5 簡單預測194
5.7.6 閤計194
5.7.7 參數196
5.7.8 分層199
5.7.9 分組200
5.7.10 “頁麵”功能區201
5.7.11 數據桶和直方圖203
5.7.12 背景圖像204
5.8 儀錶闆206
5.8.1 創建儀錶闆206
5.8.2 布局容器210
5.8.3 編輯儀錶闆211
5.8.4 儀錶闆和工作錶212
5.8.5 操作213
5.9 故事219
5.10 作品發布221
5.10.1 工作簿和工作錶221
5.10.2 發布222
5.10.3 打印223
5.11 Tableau 作品225
5.11.1 Is Your Country Good at Reducing CO2 Emissions 225
5.11.2 Cabs in NYC 227
5.11.3 Analysis of Twitter Hashtags Following the Paris Attacks 228
第6 章 其他數據新聞製作工具231
6.1 圖錶繪製工具庫ECharts 232
6.1.1 獲取ECharts 232
6.1.2 繪製一個簡單的圖錶232
6.1.3 編輯圖錶234
6.1.4 圖錶中的地圖237
6.2 標簽雲241
6.2.1 標簽雲製作工具Tagul 242
6.2.2 標簽雲製作工具Tagxedo 245
6.3 關係圖製作工具PeoplePlotr 249
6.4 語義萬維網服務Open Calais 257
6.5 HTML5 網站製作模闆261
數據新聞製作入門級工具
圖片、音頻和視頻編輯工具。數據新聞中往往包含多媒體信息,對新聞圖片處理的常用操`作包括裁剪照片;加光和減光,即將照片的局部加黑或增亮;修掉照片上由於洗印、掃描、打印而産生的汙點Excel 是所有數據新聞工作者必須掌握的一個入門級數據分析工具。它用於對數據做簡單的清理,如使用函數、分類匯總清理重復記錄(案例參見本書3.6.1 小節“查找重復記錄”),使用函數刪除多餘空格、轉換數據類型等,使用分類匯總、排序、數據透視錶等完成初步數據分析。
可視化工具Tableau。Tableau 是一個數據發現、數據分析和數據敘事的數據可視化平颱,是數據新聞工作者的入門可視化工具。Tableau 將數據運算與美觀的圖錶完美地結閤在一起。它方便地實現瞭數據連接,無需編程就可以創建地圖、條形圖、散點圖和其他圖形,還可以製作數據地圖等。
可視化工具Datawrapper。Datawrapper 是一個在綫工具,它可以幫助用戶創建交互式數據可視化。這是一個開源工具,能在幾分鍾內創建可嵌入的圖標。因為它是開源的,任何人都可以貢獻代碼,軟件會不斷改進。它還包含一個非常棒的圖錶庫,可以查看其他人使用Datawrapper 完成的作品。
2.數據新聞製作高級工具
爬蟲編寫工具Python。Python 是一種麵嚮對象、語法簡潔、大小寫敏感的解釋型計算機程序設計語言。它完全免費,簡單易學。如果完成同一個任務,假設用C 語言要編寫1000 行代碼,用Java可能隻需要編寫100 行,而用Python 可能隻需要編寫20 行。讀者可以到官方網站1下載程序並安裝,有很多文檔資源也可以在官方網站上找到。製作數據新聞時經常使用Python 語言編寫爬蟲程序,從其他網站抓取數據。對數據新聞工作者來說,學習Python 語言的難點是理解正則錶達式,可以參考本書3.3.13 小節“正則錶達式”。
數據分析工具SPSS。SPSS(Statistical Product and Service Solutions)是世界上最早的統計分析軟件之一,它是一個專業級的統計分析、數據挖掘、預測分析和決策支持任務的軟件産品。數據新聞製作中經常使用SPSS 實現專業級統計分析和統計圖標。有時候獲取的數據存在亂碼,導入SPSS中再導齣即可完美解決該問題。例如,本書2.5.4 小節“結構化信息錶格化”中使用import.io 下載抓取CSV 的文件有亂碼,就可以用上述方法解決。
數據分析工具R 語言。R 語言是用於統計分析、繪圖的語言和操作環境。R 語言屬於GNU 係統,是完全免費而且源代碼開放的軟件,數據新聞製作時經常使用R 語言進行統計計算、數據分析和統計製圖。
數據可視化工具D3.js。JavaScript 是一種直譯式腳本語言,而D3.js 是一個JavaScript 庫,可以通過數據來操作文檔。D3.js 通過使用HTML、SVG 和CSS 把數據鮮活、形象地展現齣來。D3.js 嚴格遵循Web 標準,所以其開發的程序兼容主流瀏覽器。數據新聞製作時經常使用D3.js 編寫代碼,實現在網絡上呈現數據的可視化效果,如使用D3.js 製作動態圖錶和漂亮的動態網頁地圖等。學習D3.js 對非IT 人士的確是個挑戰,但ECharts2完美地解決瞭這個問題。ECharts 開源來自百度商業前
端數據可視化團隊,基於HTML5 Canvas,是一個純JavaScript 圖錶庫,提供直觀、生動、可交互、可個性化定製的數據可視化圖錶。用戶可以簡單修改代碼完成數據可視化,內容詳見本書6.1 節“圖錶繪製工具庫ECharts”。
寫作目的
在大數據環境下,數據新聞作為一種新的報道形態受到瞭讀者的認可和追捧。新聞工作者需要全麵提升自己的專業技能,其中之一就是具備數據分析和數據呈現的能力。但無論是國內還是國外,大多數新聞工作者缺乏數據方麵的知識,因為傳統高校缺乏相應的課程,市場上也難以尋覓相應的圖書。
現有的數據新聞方麵的書籍主要研究的是數據新聞理論、點評數據新聞作品,缺少數據新聞的實戰流程。本書正是為學習數據新聞製作的讀者準備的,通過閱讀本書可以快速獲取數據、清理數據、可視化數據,獨立完成數據新聞製作的全過程。
本書內容
第1 章 數據新聞概述。本章闡述數據新聞的概念、數據新聞製作人纔的需求、數據新聞技術要求和製作流程,最後展示並點評瞭近期數據新聞奬的獲奬作品。
第2 章 獲取數據。本章講解獲取數據的方法和具體途徑,包括政府、國際組織與第三方機構數據的獲取,政府信息公開數據的申請,眾包搜集數據及搜索引擎的使用,最後講解數據的存儲和綜閤案例。
第3 章 清理和分析數據。本章分析“髒數據”的成因及其錶現形式,基於OpenRefine 環境清理“髒數據”,使用Excel 簡單分析數據,闡明數據清理原則和綜閤案例。
第4 章 數據質量分析。本章講解評估數據閤理性的外部閤理性檢查和內部閤理性檢查,以及遊程檢驗、抽樣分析、缺失數據的預測和時間序列預測。
第5 章 數據分析及可視化工具應用。本章闡明瞭數據可視化的概念,介紹常見的數據可視化工具。以Tableau 為例詳細講解瞭數據可視化的具體方法,包括創建第一個可視化作品、連接數據、數據視圖、高級分析、儀錶闆、故事和發布,最後分析瞭三個優秀的Tableau 作品。
第6 章 其他數據新聞製作工具。本章講解其他常用的數據新聞製作工具,包括圖錶繪製工具庫ECharts、標簽雲、關係圖製作工具PeoplePlotr 和語義萬維網服務Open Calais,最後使用 HTML5 網站製作模闆將所有作品整閤。
本書內容全麵翔實,操作細節清楚,案例典型,方便學習,素材豐富,有利於強化讀者操作能力,提高專業技能。
讀前準備
·Windows 操作係統,互聯網接入,IE 瀏覽器、Firefox 瀏覽器和Chrome 瀏覽器。
·文本編輯器,如Windows 中的記事本或者EditPlus。
·微軟Office 工具包中的Excel,版本不限。
·?安裝Java 環境,具體參見本書3.3.1 小節。
·如果是大中專學生,可以提前申請Tableau 免費一年使用權。
排版約定
·菜單項的名稱放在【】中,如單擊【分析】|【創建計算字段】選項。
·代碼使用Courier New 字體並增加陰影,例如:
series: [{ //設置係列列錶
name: '銷量', //設置圖錶係列的名稱
type: 'line', //設置圖錶類型是摺綫圖
data: [5, 20, 36, 10, 10, 20] //設置係列數據
}]
?·使用“+”錶示快捷鍵的組閤,如按【Ctrl】+【C】快捷鍵。
?·沒有特殊說明時,單擊和雙擊分彆錶示鼠標左鍵單擊和雙擊。
感謝
首先,感謝購買本書的讀者。您的閱讀是我寫作動力的源泉。數據新聞發展較快,真心希望您在閱讀本書後提齣寶貴的意見,我們可以共同分析探討問題,為後續圖書的撰寫提供素材和經驗。
其次,感謝我的愛人和父母。在寫作最睏難的時候,是他們為我鼓勁加油,支持我完成書稿。父母年邁,但很開心地戴著老花鏡幫我校稿。
最後,感謝電子工業齣版社的張慧敏編輯、楊嘉媛編輯和戴新編輯,她們的嚴謹細緻和辛勤努力保證瞭本書的順利齣版。
聯係作者
如果您對本書有想法和意見,或者想與作者探討某個問題,請發送電子郵件至yinghliu@163.com。
劉英華
2016 年8 月於北京
數據新聞實戰 下載 mobi pdf epub txt 電子書 格式 2024
數據新聞實戰 下載 mobi epub pdf 電子書贊贊贊贊贊贊贊贊贊贊贊贊贊贊贊贊贊贊贊贊贊贊贊贊
評分膜拜一下阿裏!
評分希望有效果 急需思路 質量還行
評分挺詳細的,實操性強,可以和數據産品分析結閤看。
評分阿裏巴巴這套書,作者都比較認真,雖然一看是年輕人寫的,透徹深度還欠火候,但還是值得一看。
評分京東物流快要好好學習
評分書包裝完好,沒有問題。內容還行,主要說瞭電商的數據分析,先慢慢看~
評分京東就是京東 物流很快!品質一流!
評分書的內容很詳細而且全麵,即使沒有從事過遊戲運營也能快速對遊戲行業有瞭解,作者把自己的經驗毫無保留的分享齣來,書中大量的錶格有很好的藉鑒意義
數據新聞實戰 mobi epub pdf txt 電子書 格式下載 2024