編輯推薦
藉助多年的實踐經驗,采用大量示例和易於理解的框架,W.H. Inmon和Daniel Linstedt準確解釋瞭數據架構的重要意義,研究瞭如何使用它在已有係統中高效駕馭大數據。
- 探討瞭大數據中經常被忽視的價值,研究瞭非重復型數據,並且闡述瞭為什麼它的使用會帶來顯著的業務價值
- 展示瞭如何將文本信息轉換成標準工具可以分析的形式
- 解釋瞭如何使大數據適用於已有係統環境
- 介紹瞭大數據的齣現所帶來的新機遇
- 澄清瞭大數據中重復型數據和非重復型數據的不明確之處
內容簡介
本書是數據倉庫之父Inmon的新作,探討數據的架構和如何在現有係統中有效地利用數據。本書的主題涵蓋企業數據、大數據、數據倉庫、Data Vault、業務係統和架構。主要內容包括:在分析和大數據之間建立關聯,如何利用現有信息係統,如何導齣重復型數據和非重復型數據,大數據以及使用大數據的商業價值,等等。
作者簡介
W.H. Inmon
數據倉庫之父,早期的數據倉庫概念提齣者,在數據庫技術管理與數據庫設計方麵擁有30多年的經驗。2007年,Inmon被ComputerWorld雜誌評為計算機行業頗具影響力的十大名人之一。
Daniel Linstedt
世界知名數據倉庫專傢、商業智能分析傢,Empowered Holdings公司創始人兼主席,有20餘年的IT行業打拼經驗。Linstedt還是下一代數據倉庫模型Data Vault的發明者。
目錄
目錄
第1章 企業數據 1
1.1 企業數據 1
1.1.1 企業的全體數據 1
1.1.2 非結構化數據的劃分 2
1.1.3 業務相關性 3
1.1.4 大數據 3
1.1.5 分界綫 4
1.1.6 大陸分水嶺 5
1.1.7 企業數據全貌 6
1.2 數據基礎設施 6
1.2.1 重復型數據的兩種類型 7
1.2.2 重復型結構化數據 7
1.2.3 重復型大數據 8
1.2.4 兩種基礎設施 9
1.2.5 優化瞭什麼 10
1.2.6 對比兩種基礎設施 11
1.3 分界綫 12
1.3.1 企業數據分類 12
1.3.2 分界綫 12
1.3.3 重復型非結構化數據 13
1.3.4 非重復型非結構化數據 15
1.3.5 不同的領域 17
1.4 企業數據統計圖 17
1.5 企業數據分析 22
1.6 數據的生命周期——隨時間推移理解數據 27
1.7 數據簡史 31
1.7.1 紙帶和穿孔卡片 31
1.7.2 磁帶 32
1.7.3 磁盤存儲器 32
1.7.4 數據庫管理係統 32
1.7.5 耦閤處理器 33
1.7.6 在綫事務處理 33
1.7.7 數據倉庫 34
1.7.8 並行數據管理 34
1.7.9 Data Vault 35
1.7.10 大數據 35
1.7.11 分界綫 35
第2章 大數據 37
2.1 大數據簡史 37
2.1.1 打個比方——占領製高點 37
2.1.2 占領製高點 38
2.1.3 IBM360帶來的標準化 38
2.1.4 在綫事務處理 39
2.1.5 Teradata的齣現和大規模並行處理 39
2.1.6 隨後到來的Hadoop和大數據 39
2.1.7 IBM和Hadoop 39
2.1.8 控製製高點 40
2.2 大數據是什麼 40
2.2.1 另一種定義 40
2.2.2 大數據量 40
2.2.3 廉價存儲器 41
2.2.4 羅馬人口統計方法 41
2.2.5 非結構化數據 42
2.2.6 大數據中的數據 42
2.2.7 重復型數據中的語境 43
2.2.8 非重復型數據 44
2.2.9 非重復型數據中的語境 44
2.3 並行處理 45
2.4 非結構化數據 50
2.4.1 隨處可見的文本信息 50
2.4.2 基於結構化數據的決策 51
2.4.3 業務價值定位 51
2.4.4 重復型和非重復型的非結構化信息 52
2.4.5 易於分析 53
2.4.6 語境化 54
2.4.7 一些語境化方法 55
2.4.8 MapReduce 56
2.4.9 手工分析 56
2.5 重復型非結構化數據的語境化 57
2.5.1 解析重復型非結構化數據 57
2.5.2 重組輸齣數據 58
2.6 文本消歧 58
2.6.1 從敘事到分析數據庫 58
2.6.2 文本消歧的輸入 59
2.6.3 映射 60
2.6.4 輸入/輸齣 61
2.6.5 文檔分片/指定值處理 61
2.6.6 文檔預處理 62
2.6.7 電子郵件——一個特例 62
2.6.8 電子錶格 63
2.6.9 報錶反編譯 63
2.7 分類法 65
2.7.1 數據模型和分類法 65
2.7.2 分類法的適用性 66
2.7.3 分類法是什麼 66
2.7.4 多語言分類法 68
2.7.5 分類法與文本消歧的動態 68
2.7.6 分類法和文本消歧——不同的技術 69
2.7.7 分類法的不同類型 70
2.7.8 分類法——隨時間推移不斷維護 70
第3章 數據倉庫 71
3.1 數據倉庫簡史 71
3.1.1 早期的應用程序 71
3.1.2 在綫應用程序 71
3.1.3 抽取程序 72
3.1.4 4GL技術 73
3.1.5 個人電腦 73
3.1.6 電子錶格 74
3.1.7 數據完整性 75
3.1.8 蛛網係統 76
3.1.9 維護積壓 77
3.1.10 數據倉庫 78
3.1.11 走嚮架構式環境 78
3.1.12 走嚮企業信息工廠 78
3.1.13 DW 2.0 79
3.2 集成的企業數據 81
3.2.1 數量眾多的應用程序 81
3.2.2 放眼企業 82
3.2.3 多個分析師 83
3.2.4 ETL技術 84
3.2.5 集成的挑戰 86
3.2.6 數據倉庫的效益 86
3.2.7 粒度的視角 87
3.3 曆史數據 89
3.4 數據集市 92
3.4.1 顆粒化的數據 92
3.4.2 關係數據庫設計 93
3.4.3 數據集市 93
3.4.4 關鍵性能指標 94
3.4.5 維度模型 94
3.4.6 數據倉庫和數據集市的整閤 95
3.5 作業數據存儲 96
3.5.1 集成數據的在綫事務處理 96
3.5.2 作業數據存儲 97
3.5.3 ODS和數據倉庫 98
3.5.4 ODS分類 99
3.5.5 將外部數據更新到ODS 99
3.5.6 ODS/數據倉庫接口 100
3.6 對數據倉庫的誤解 101
3.6.1 一種簡單的數據倉庫架構 101
3.6.2 在數據倉庫中進行在綫高性能事務處理 101
3.6.3 數據完整性 102
3.6.4 數據倉庫工作負載 102
3.6.5 來自數據倉庫的統計處理 103
3.6.6 統計處理的頻率 104
3.6.7 探查倉庫 104
第4章 Data Vault 106
4.1 Data Vault簡介 106
4.1.1 Data Vault 2.0建模 107
4.1.2 Data Vault 2.0方法論定義 107
4.1.3 Data Vault 2.0架構 107
4.1.4 Data Vault 2.0實施 108
4.1.5 Data Vault 2.0商業效益 108
4.1.6 Data Vault 1.0 109
4.2 Data Vault建模介紹 110
4.2.1 Data Vault模型概念 110
4.2.2 Data Vault模型定義 110
4.2.3 Data Vault模型組件 111
4.2.4 Data Vault和數據倉庫 112
4.2.5 轉換到Data Vault建模 112
4.2.6 數據重構 113
4.2.7 Data Vault建模的基本規則 114
4.2.8 為什麼需要多對多鏈接結構 114
4.2.9 散列鍵代替順序號 115
4.3 Data Vault架構介紹 116
4.3.1 Data Vault 2.0架構 116
4.3.2 如何將NoSQL適用於本架構 117
4.3.3 Data Vault 2.0架構的目標 117
4.3.4 Data Vault 2.0建模的目標 118
4.3.5 軟硬業務規則 118
4.3.6 托管式SSBI與DV2架構 119
4.4 Data Vault方法論介紹 120
4.4.1 Data Vault 2.0方法論概述 120
4.4.2 CMMI和Data Vault 2.0方法論 120
4.4.3 CMMI與敏捷性的對比 122
4.4.4 項目管理實踐和SDLC與CMMI和敏捷的對比 123
4.4.5 六西格瑪和Data Vault 2.0方法論 123
4.4.6 全質量管理 124
4.5 Data Vault實施介紹 125
4.5.1 實施概述 125
4.5.2 模式的重要性 126
4.5.3 再造工程和大數據 127
4.5.4 虛擬化我們的數據集市 128
4.5.5 托管式自助服務BI 128
第5章 作業環境 130
5.1 作業環境——簡史 130
5.1.1 計算機的商業應用 130
5.1.2 最初的應用程序 131
5.1.3 Ed Yourdon和結構化革命 132
5.1.4 係統開發生命周期 132
5.1.5 磁盤技術 132
5.1.6 進入數據庫管理係統時代 133
5.1.7 響應時間和可用性 133
5.1.8 現代企業計算 136
5.2 標準工作單元 136
5.2.1 響應時間要素 136
5.2.2 沙漏的比喻 137
5.2.3 車道的比喻 138
5.2.4 你的車跑得跟前麵的車一樣快 139
5.2.5 標準工作單元 139
5.2.6 服務等級協議 139
5.3 麵嚮結構化環境的數據建模 140
5.3.1 路綫圖的作用 140
5.3.2 隻要粒度化的數據 140
5.3.3 實體關係圖 141
5.3.4 數據項集 142
5.3.5 物理數據庫設計 143
5.3.6 關聯數據模型的不同層次 143
5.3.7 數據聯動的示例 144
5.3.8 通用數據模型 146
5.3.9 作業數據模型和數據倉庫數據模型 146
5.4 元數據 146
5.4.1 典型元數據 146
5.4.2 存儲庫 147
5.4.3 使用元數據 148
5.4.4 元數據用於分析 149
5.4.5 查看多個係統 150
5.4.6 數據譜係 150
5.4.7 比較已有係統和待建係統 150
5.5 結構化數據的數據治理 151
5.5.1 企業活動 151
5.5.2 數據治理的動機 152
5.5.3 修復數據 152
5.5.4 粒度化的詳細數據 153
5.5.5 編製文檔 153
5.5.6 數據主管崗位 154
第6章 數據架構 156
6.1 數據架構簡史 156
6.2 大數據/已有係統的接口 166
6.2.1 大數據/已有係統的接口 166
6.2.2 重復型原始大數據/已有係統接口 167
6.2.3 基於異常的數據 168
6.2.4 非重復型原始大數據/已有係統接口 169
6.2.5 進入已有係統環境 170
6.2.6 “語境豐富”的大數據環境 171
6.2.7 將結構化數據/非結構化數據放在一起分析 172
6.3 數據倉庫/作業環境接口 172
6.3.1 作業環境/數據倉庫接口 172
6.3.2 經典的ETL接口 173
6.3.3 作業數據存儲/ETL接口 173
6.3.4 集結區 174
6.3.5 變化數據的捕獲 175
6.3.6 內聯轉換 175
6.3.7 ELT處理 176
6.4 數據架構——一種高層視角 177
6.4.1 一種高層視角 177
6.4.2 冗餘 177
6.4.3 記錄係統 178
6.4.4 不同的群體 180
第7章 重復型分析 181
7.1 重復型分析——必備基礎 181
7.1.1 不同種類的分析 181
7.1.2 尋找模式 182
7.1.3 啓發式處理 183
7.1.4 沙箱 186
7.1.5 標準概況 187
7.1.6 提煉、篩選 188
7.1.7 建立數據子集 188
7.1.8 篩選數據 190
7.1.9 重復型數據和語境 192
7.1.10 鏈接重復型記錄 193
7.1.11 日誌磁帶記錄 193
7.1.12 分析數據點 194
7.1.13 按時間的推移研究數據 195
7.2 分析重復型數據 196
7.2.1 日誌數據 198
7.2.2 數據的主動/被動式索引 199
7.2.3 匯總/詳細數據 200
7.2.4 大數據中的元數據 202
7.2.5 相互關聯的數據 203
7.3 重復型分析 204
7.3.1 內部、外部數據 204
7.3.2 通用標識符 205
7.3.3 安全性 205
7.3.4 篩選、提煉 207
7.3.5 歸檔結果 208
7.3.6 指標 210
第8章 非重復型分析 211
8.1 非重復型數據 211
8.1.1 內聯語境化 213
8.1.2 分類法/本體處理 214
8.1.3 自定義變量 215
8.1.4 同形異義消解 216
8.1.5 縮略語消解 217
8.1.6 否定分析 218
8.1.7 數字標注 219
8.1.8 日期標注 220
8.1.9 日期標準化 220
8.1.10 列錶的處理 220
8.1.11 聯想式詞處理 221
8.1.12 停用詞處理 222
8.1.13 提取單詞詞根 222
8.1.14 文檔元數據 223
8.1.15 文檔分類 223
8.1.16 相近度分析 224
8.1.17 文本ETL中功能的先後順序 225
8.1.18 內部參照完整性 225
8.1.19 預處理、後處理 226
8.2 映射 227
8.3 分析非重復型數據 229
8.3.1 呼叫中心信息 229
8.3.2 醫療記錄 237
第9章 作業分析1 242
第10章 作業分析2 249
第11章 個人分析 259
第12章 復閤式的數據架構 264
詞匯錶 268
數據架構 大數據 數據倉庫以及Data Vault 下載 mobi epub pdf txt 電子書 格式