發表於2024-11-28
商品參數
大數據原理:復雜信息的準備、共享和分析 | ||
定價 | 79.00 | |
齣版社 | 機械工業齣版社 | |
版次 | 1 | |
齣版時間 | 2017年07月 | |
開本 | 16 | |
作者 | 硃爾斯 J. 伯曼 | |
裝幀 | ||
頁數 | ||
字數 | ||
ISBN編碼 | 9787111572169 | |
重量 |
當大數據資源變得越發復雜時,僅靠更強大的計算機係統已無法解決問題。本書帶我們重新審視數據準備環節,重點討論瞭其中至關重要但又常常被忽略的主題——標識符、不變性、內省和數據索引。此外,書中也涵蓋常見的與大數據設計、架構、操作和分析相關的內容,以及涉及法律、社會和倫理問題的非技術性章節。全書視角獨特,涉獵廣博,尤以醫學大數據分析見長,強調基本原理,不關注編程細節和數學公式,適閤企業決策者、技術專傢以及計算機相關專業的學生閱讀。
第0章 引言1
0.1 大數據的定義2
0.2 大數據VS小數據2
0.3 大數據在哪裏4
0.4 大數據zui常見的目的是産生小數據5
0.5 機會6
0.6 大數據成為信息宇宙的中心6
第1章 為非結構化數據提供結構8
1.1 背景8
1.2 機器翻譯9
1.3 自動編碼11
1.4 索引14
1.5 術語提取16
第2章 標識、去標識和重標識19
2.1 背景19
2.2 標識符係統的特徵20
2.3 注冊唯1對象標識符21
2.4 糟糕的標識方法24
2.5 在標識符中嵌入信息:不推薦25
2.6 單嚮哈希函數26
2.7 案例:醫院登記27
2.8 去標識化28
2.9 數據清洗29
2.10 重標識30
2.11 經驗教訓31
第3章 本體論和語義學32
3.1 背景32
3.2 分類:zui簡單的本體32
3.3 本體:有多個父類的類34
3.4 分類模型選擇35
3.5 資源描述框架模式簡介38
3.6 本體開發的常見陷阱40
第4章 內省42
4.1 背景42
4.2 自我認知42
4.3 可擴展標記語言44
4.4 meaning簡介45
4.5 命名空間與有意義的聲明集閤體46
4.6 資源描述框架三元組47
4.7 映射49
4.8 案例:可信時間戳50
4.9 總結50
第5章 數據集成和軟件互操作性52
5.1 背景52
5.2 調查標準委員會53
5.3 標準軌跡53
5.4 規範與標準56
5.5 版本控製58
5.6 閤規問題60
5.7 大數據資源接口60
第6章 不變性和永jiu性62
6.1 背景62
6.2 不變性和標識符63
6.3 數據對象64
6.4 遺留數據65
6.5 數據産生數據67
6.6 跨機構協調標識符67
6.7 零知識協調68
6.8 管理者的負擔69
第7章 測量70
7.1 背景70
7.2 計數70
7.3 基因計數72
7.4 處理否定73
7.5 理解控製74
7.6 測量的實踐意義75
7.7 強迫癥:偉大數據管理員的標誌76
第8章 簡單有效的大數據技術77
8.1 背景77
8.2 觀察數據78
8.3 數據範圍85
8.4 分母87
8.5 頻率分布89
8.6 均值和標準差92
8.7 估計分析94
8.8 案例:用榖歌Ngram發現數據趨勢95
8.9 案例:預測觀眾的電影偏好97
第9章 分析99
9.1 背景99
9.2 分析任務99
9.3 聚類、分類、推薦和建模100
9.3.1 聚類算法100
9.3.2 分類算法101
9.3.3 推薦算法101
9.3.4 建模算法101
9.4 數據約簡103
9.5 數據標準化和調整105
9.6 大數據軟件:速度和可擴展性107
9.7 尋找關係而非相似之處108
第10章 大數據分析中的特殊注意事項111
10.1 背景111
10.2 數據搜索理論111
10.3 理論搜索中的數據112
10.4 過度擬閤113
10.5 巨大的偏差113
10.6 數據太多116
10.7 數據修復116
10.8 大數據的數據子集:不可加和不傳遞117
10.9 其他大數據缺陷117
第11章 逐步走進大數據分析120
11.1 背景120
11.2 步驟1:製定一個問題120
11.3 步驟2:資源評價121
11.4 步驟3:重新製定一個問題121
11.5 步驟4:查詢輸齣充分性122
11.6 步驟5:數據描述122
11.7 步驟6:數據約簡123
11.8 步驟7:必要時選擇算法123
11.9 步驟8:結果評估和結論斷言124
11.10 步驟9:結論審查和驗證125
第12章 失敗127
12.1 背景127
12.2 失敗很常見128
12.3 失敗的標準128
12.4 復雜性131
12.5 復雜性何時起作用132
12.6 冗餘失敗的情況132
12.7 保護錢,不保護無害信息133
12.8 失敗之後134
12.9 案例:癌癥生物醫學信息學網格—遙遠的橋135
第13章 閤法性140
13.1 背景140
13.2 對數據的準確性和閤法性負責140
13.3 創建、使用和共享資源的權利141
13.4 因使用標準而招緻的版權和專利侵權行為143
13.5 對個人的保護144
13.6 許可問題145
13.7 未經許可的數據148
13.8 好政策是有力保障150
13.9 案例:哈瓦蘇派的故事151
第14章 社會問題153
14.1 背景153
14.2 大數據感知153
14.3 數據共享155
14.4 用大數據降低成本和提高生産效率158
14.5 公眾的疑慮160
14.6 從自己做起161
14.7 傲慢和誇張162
第15章 未來164
15.1 背景164
15.1.1 大數據計算復雜,需要新一代超級計算機?165
15.1.2 大數據的復雜程度將超齣我們完全理解或信任的能力範圍?166
15.1.3 我們需要用超級計算中的zui新技術訓練齣一支計算機科學傢組成的團隊嗎?166
15.1.4 大數據會創建齣那些目前沒有訓練程序的新型數據專業人員嗎?166
15.1.5 是否有將數據錶示方法通過統一的標準規範化,從而支持跨網絡大數據資源的數據集成和軟件互操作性的可能?169
15.1.6 大數據將嚮公眾開放?169
15.1.7 大數據弊大於利?170
15.1.8 我們可以預測大數據災難會破壞至關重要的服務、削弱國傢經濟、破壞世界政治的穩定嗎?171
15.1.9 大數據可以迴答那些其他辦法不能解決的問題嗎?171
15.2 後記171
術語錶172
參考文獻188
索引196
正版 大數據原理 復雜信息的準備 共享和分析 單嚮哈希函數 建模算法 自我認知 可擴展標 下載 mobi pdf epub txt 電子書 格式 2024
正版 大數據原理 復雜信息的準備 共享和分析 單嚮哈希函數 建模算法 自我認知 可擴展標 下載 mobi epub pdf 電子書正版 大數據原理 復雜信息的準備 共享和分析 單嚮哈希函數 建模算法 自我認知 可擴展標 mobi epub pdf txt 電子書 格式下載 2024