編輯推薦
作者攜手數據領域的強大智囊團為讀者貢獻的一本處理噪音數據的指南。
本書囊括眾多真實世界的應用案例以及高水平的方法和策略。
本書匯集國外數據社區的技術骨乾和活躍分子的集體智慧,多位數據領域的專傢共同揭示瞭如何處理棘手的數據問題的奧秘。
噪音數據就是那些"給你惹麻煩的數據",從蹩腳的存儲到糟糕的說明,再到令人誤解的策略,有多重情況可能導緻噪音數據。
那麼什麼纔是決定性因素呢?有人認為是技術方麵的問題,比如缺失值或格式不對的記錄,但是噪音數據包含更多的問題。
本書介紹瞭多種有效的方式來應對噪音數據。在本書中,多位數據領域的專傢共同揭示瞭如何處理棘手的數據問題的奧秘。
通過閱讀本書,你將學會:
測試你的數據,判斷它是否適閤分析;
將電子錶格數據轉變成可用的格式;
處理潛藏在文本數據裏的編碼問題;
進行一種成功的網絡搜集嘗試;
利用自然語言處理(NLP, Natural Language Processing)工具揭露綫上評論的真實情感;
處理可以影響分析工作的雲計算問題;
避免那些製造數據分析障礙的策略;
采用一種係統的數據質量分析方法。
內容簡介
隨著數據科學的熱門,數據的優化、整理以及如何處理不良數據成為人們關注的重點。本書通過處理不良數據,進行數據清理的案例,嚮讀者展示瞭處理數據的方法。
本書共有19章,從6部分嚮讀者展示瞭使用和清理不良數據背後的理論和實踐。第1部分是Grubby的動手實踐指南,它嚮讀者介紹瞭駕馭、提取數據的方法,如何處理文本數據中的數據以及Web開發中碰到的數據問題。第2部分是讓人充滿意外的數據,它嚮讀者介紹瞭數據也會“撒謊”。第3部分是方法,它嚮讀者介紹瞭處理不良數據的一些方法。第4部分是數據存儲和基礎設施,它嚮讀者介紹瞭如何存儲數據。第5部分是數據的商業化,它嚮讀者介紹瞭如何避免數據處理的一些誤差。第6部分是數據策略,它嚮讀者介紹瞭如何追蹤數據、評估數據質量以及構建數據質量相關平颱等。
本書適閤數據科學傢、數據處理和整理相關開發人員閱讀。也適閤想要進入數據處理領域的讀者閱讀。
作者簡介
Q.Ethan McCallum,是一位顧問、作傢,也是一名科技愛好者。他幫助很多公司在數據和技術方麵做齣明智的決策,他為The O’Relly Network 和Java.net撰寫文章,並且為《C/C++Users Journal》《Doctor Dobb’s Journal》和《Linux Magazine》撰稿。
目錄
第1章 從頭說起:什麼是噪音數據 1
第2章 是我的問題還是數據的問題 4
2.1 理解數據結構 5
2.2 校驗 8
2.2.1 字段校驗 8
2.2.2 值校驗 9
2.2.3 簡單統計的物理解釋 10
2.3 可視化 11
2.3.1 關鍵詞競價排名示例 13
2.3.2 搜索來源示例 18
2.3.3 推薦分析 19
2.3.4 時間序列數據 22
2.4 小結 27
第3章 數據是給人看的不是給機器看的 28
3.1 數據 28
3.1.1 問題:數據是給人看的 29
3.1.2 對數據的安排 29
3.1.3 數據分散在多個文件中 32
3.2 解決方案:編寫代碼 34
3.2.1 從糟糕的數據格式中讀取數據 34
3.2.2 從多個文件中讀取數據 36
3.3 附言 42
3.4 其他格式 43
3.5 小結 45
第4章 純文本中潛在的噪音數據 46
4.1 使用哪種純文本編碼? 46
4.2 猜測文本編碼格式 50
4.3 對文本規範化處理 53
4.4 問題:在純文本中摻入瞭特定應用字符 55
4.5 通過Python處理文本 59
4.6 實踐練習題 60
第5章 重組Web數據 62
5.1 你能獲得數據嗎 63
5.1.1 一般工作流程示例 64
5.1.2 Robots 協議 65
5.1.3 識彆數據組織模式 66
5.1.4 存儲離綫版本 68
5.1.5 網頁抓取信息 69
5.2 真正的睏難 73
5.2.1 下載原始內容 73
5.2.2 錶單、對話框和新建窗口 73
5.2.3 Flash 74
5.3 不利情況的解決辦法 75
5.4 小結 75
第6章 檢測撒謊者以及相互矛盾網上評論的睏惑 76
6.1 Weotta公司 76
6.2 獲得評論 77
6.3 情感分類 77
6.4 極化語言 78
6.5 創建語料庫 80
6.6 訓練分類器 81
6.7 分類器驗證 82
6.8 用數據設計 84
6.9 經驗教訓 84
6.10 小結 85
6.11 信息資源 86
第7章 請噪音數據站齣來 87
7.1 實例1:在製造業中減少缺陷 87
7.2 實例2:誰打來的電話 90
7.3 實例3:當“典型的”不等於“平均的” 92
7.4 經驗總結 95
7.5 到工廠參觀能成為試驗的一部分嗎 96
第8章 血、汗和尿 97
8.1 書呆子戲劇性工作交換 97
8.2 化學傢如何整理數字 98
8.3 數據庫都是我們的 99
8.4 仔細檢查 102
8.5 生命短暫的漂亮代碼庫 103
8.6 改變化學傢(和其他電子錶單濫用者) 104
8.7 傳遞綫(tl)和數據記錄器(dr) 105
第9章 當數據與現實不匹配 107
9.1 到底是誰的報價機 108
9.2 股票分割、股利和調整 110
9.3 糟糕的現實 112
9.4 小結 114
第10章 偏差和誤差的來源 115
10.1 估算上的偏差:一般性的問題 117
10.2 報告上的誤差:一般性的問題 118
10.3 其他偏差來源 121
10.3.1 頂層編碼/底部編碼 121
10.3.2 Seam偏差 122
10.3.3 代理報告 123
10.3.4 樣本選擇 123
10.4 結論 124
參考文獻 124
第11章 不要把完美和正確對立起來:噪音數據真是噪音嗎 128
11.1 迴憶學校生活 128
11.2 嚮著專業領域前進 129
11.2.1 政府工作 130
11.2.2 政府數據非常真實 131
11.3 應用實例—服務電話 132
11.4 繼續前進 133
11.5 經驗與未來展望 134
第12章 數據庫攻擊:什麼時候使用文件 135
12.1 曆史 135
12.2 建立我的工具箱 136
12.3 數據存儲—我的路障 136
12.4 將文件作為數據存儲器 137
12.4.1 簡單的文件 138
12.4.2 文件處理一切 138
12.4.3 文件可包含任何數據形式 138
12.4.4 局部數據破壞 139
12.4.5 文件擁有很棒的工具 139
12.4.6 沒有安裝稅 139
12.5 文件的概念 140
12.5.1 編碼 140
12.5.2 文本文件 140
12.5.3 二進製數據 140
12.5.4 內存映射文件 140
12.5.5 文件格式 140
12.5.6 分隔符 142
12.6 文件支持的網絡框架 143
12.6.1 動機 143
12.6.2 實現 145
12.7 反饋 145
第13章 臥庫錶,隱網絡 146
13.1 成本分配模型 147
13.2 組閤展開微妙的作用 150
13.3 隱藏網絡的浮現 151
13.4 存儲圖錶 151
13.5 利用Gremlin遍曆圖錶 152
13.6 在網絡屬性裏尋找價值 154
13.7 從多重數據模型角度考慮並使用正確的工具 155
13.8 緻謝 155
第14章 雲計算神話 156
14.1 關於雲的介紹 156
14.2 何謂“雲” 156
14.3 雲和大數據 157
14.4 Fred的故事 157
14.4.1 起初一切都好 157
14.4.2 基礎結構全部放在雲端 158
14.4.3 隨著規模增長,最初的擴展很輕鬆 158
14.4.4 麻煩齣現瞭 158
14.4.5 需要提高性能 158
14.4.6 關鍵要提高RAID 10性能 158
14.4.7 重要的局部運行中斷引發長期停機 159
14.4.8 有代價的RAID 10 159
14.4.9 數據規模增大 160
14.4.10 地理冗餘成為首選 160
14.4.11 水平擴展並不像想像得那麼簡單 160
14.4.12 成本顯著增長 160
14.5 Fred的荒唐事 161
14.5.1 神話1:雲是所有基礎設施組件的解決方案 161
該神話與Fred故事的聯係 161
14.5.2 神話2:雲可以節約成本 161
該神話與Fred的故事的聯係 162
14.5.3 神話3:通過RAID可以將cloud 10的性能提高至可接受的水平 163
該神話與Fred故事的聯係 163
14.5.4 神話4:雲計算使水平擴展輕鬆 163
該神話與Fred故事的聯係 164
14.6 結論和推薦 164
第15章 數據科學的陰暗麵 165
15.1 避開這些陷阱 165
15.1.1 對數據一無所知 166
15.1.2 應該隻為數據科學傢提供一種工具來解決所有問題 167
15.1.3 應該為瞭分析而分析 169
15.1.4 應該學會分享 169
15.1.5 應該期望數據科學傢無所不能 170
15.2 數據學傢在機構中的位置 170
15.3 最後的想法 171
第16章 如何雇傭機器學習專傢 172
16.1 確定問題 172
16.2 模型測試 173
16.3 創建訓練集 174
16.4 選擇特徵 175
16.5 數據編碼 176
16.6 訓練集、測試集和解決方案集 176
16.7 問題描述 177
16.8 迴答問題 178
16.9 整閤解決方案 178
16.10 小結 179
第17章 數據的可追蹤性 180
17.1 原因 180
17.2 個人經驗 181
17.2.1 快照 181
17.2.2 保存數據源 181
17.2.3 衡量數據源 182
17.2.4 逆嚮恢復數據 182
17.2.5 分階段處理數據並保持各階段的獨立性 182
17.2.6 識彆根源 183
17.2.7 尋找要完善的區域 183
17.3 不變性:從函數程序設計藉來的理念 183
17.4 案例 184
17.4.1 網絡爬蟲 184
17.4.2 改變 185
17.4.3 聚類 185
17.4.4 普及度 185
17.5 小結 186
第18章 社交媒體:是可抹去的印記嗎 187
18.1 社交媒體:到底是誰的數據 188
18.2 管控 188
18.3 商業重組 190
18.4 對溝通和錶達的期望 190
18.5 新的最終用戶期望的技術含義 192
18.6 這個行業是做什麼的 194
18.6.1 驗證API 195
18.6.2 更新通知API 195
18.7 最終用戶做什麼 195
18.8 我們怎樣一起工作 196
第19章 揭秘數據質量分析:瞭解什麼時候數據足夠優質 197
19.1 框架介紹:數據質量分析的4個C 198
19.1.1 完整性 199
19.1.2 一緻性 201
19.1.3 準確性 203
19.1.4 可解釋性 205
19.2 結論 208
前言/序言
數據整理實踐指南 下載 mobi epub pdf txt 電子書 格式