商品參數
| 大數據原理:復雜信息的準備、共享和分析 | ||
| 定價 | 79.00 | |
| 齣版社 | 機械工業齣版社 | |
| 版次 | 1 | |
| 齣版時間 | 2017年07月 | |
| 開本 | 16 | |
| 作者 | 硃爾斯 J. 伯曼 | |
| 裝幀 | ||
| 頁數 | ||
| 字數 | ||
| ISBN編碼 | 9787111572169 | |
| 重量 | ||
當大數據資源變得越發復雜時,僅靠更強大的計算機係統已無法解決問題。本書帶我們重新審視數據準備環節,重點討論瞭其中至關重要但又常常被忽略的主題——標識符、不變性、內省和數據索引。此外,書中也涵蓋常見的與大數據設計、架構、操作和分析相關的內容,以及涉及法律、社會和倫理問題的非技術性章節。全書視角獨特,涉獵廣博,尤以醫學大數據分析見長,強調基本原理,不關注編程細節和數學公式,適閤企業決策者、技術專傢以及計算機相關專業的學生閱讀。
第0章 引言1
0.1 大數據的定義2
0.2 大數據VS小數據2
0.3 大數據在哪裏4
0.4 大數據zui常見的目的是産生小數據5
0.5 機會6
0.6 大數據成為信息宇宙的中心6
第1章 為非結構化數據提供結構8
1.1 背景8
1.2 機器翻譯9
1.3 自動編碼11
1.4 索引14
1.5 術語提取16
第2章 標識、去標識和重標識19
2.1 背景19
2.2 標識符係統的特徵20
2.3 注冊唯1對象標識符21
2.4 糟糕的標識方法24
2.5 在標識符中嵌入信息:不推薦25
2.6 單嚮哈希函數26
2.7 案例:醫院登記27
2.8 去標識化28
2.9 數據清洗29
2.10 重標識30
2.11 經驗教訓31
第3章 本體論和語義學32
3.1 背景32
3.2 分類:zui簡單的本體32
3.3 本體:有多個父類的類34
3.4 分類模型選擇35
3.5 資源描述框架模式簡介38
3.6 本體開發的常見陷阱40
第4章 內省42
4.1 背景42
4.2 自我認知42
4.3 可擴展標記語言44
4.4 meaning簡介45
4.5 命名空間與有意義的聲明集閤體46
4.6 資源描述框架三元組47
4.7 映射49
4.8 案例:可信時間戳50
4.9 總結50
第5章 數據集成和軟件互操作性52
5.1 背景52
5.2 調查標準委員會53
5.3 標準軌跡53
5.4 規範與標準56
5.5 版本控製58
5.6 閤規問題60
5.7 大數據資源接口60
第6章 不變性和永jiu性62
6.1 背景62
6.2 不變性和標識符63
6.3 數據對象64
6.4 遺留數據65
6.5 數據産生數據67
6.6 跨機構協調標識符67
6.7 零知識協調68
6.8 管理者的負擔69
第7章 測量70
7.1 背景70
7.2 計數70
7.3 基因計數72
7.4 處理否定73
7.5 理解控製74
7.6 測量的實踐意義75
7.7 強迫癥:偉大數據管理員的標誌76
第8章 簡單有效的大數據技術77
8.1 背景77
8.2 觀察數據78
8.3 數據範圍85
8.4 分母87
8.5 頻率分布89
8.6 均值和標準差92
8.7 估計分析94
8.8 案例:用榖歌Ngram發現數據趨勢95
8.9 案例:預測觀眾的電影偏好97
第9章 分析99
9.1 背景99
9.2 分析任務99
9.3 聚類、分類、推薦和建模100
9.3.1 聚類算法100
9.3.2 分類算法101
9.3.3 推薦算法101
9.3.4 建模算法101
9.4 數據約簡103
9.5 數據標準化和調整105
9.6 大數據軟件:速度和可擴展性107
9.7 尋找關係而非相似之處108
第10章 大數據分析中的特殊注意事項111
10.1 背景111
10.2 數據搜索理論111
10.3 理論搜索中的數據112
10.4 過度擬閤113
10.5 巨大的偏差113
10.6 數據太多116
10.7 數據修復116
10.8 大數據的數據子集:不可加和不傳遞117
10.9 其他大數據缺陷117
第11章 逐步走進大數據分析120
11.1 背景120
11.2 步驟1:製定一個問題120
11.3 步驟2:資源評價121
11.4 步驟3:重新製定一個問題121
11.5 步驟4:查詢輸齣充分性122
11.6 步驟5:數據描述122
11.7 步驟6:數據約簡123
11.8 步驟7:必要時選擇算法123
11.9 步驟8:結果評估和結論斷言124
11.10 步驟9:結論審查和驗證125
第12章 失敗127
12.1 背景127
12.2 失敗很常見128
12.3 失敗的標準128
12.4 復雜性131
12.5 復雜性何時起作用132
12.6 冗餘失敗的情況132
12.7 保護錢,不保護無害信息133
12.8 失敗之後134
12.9 案例:癌癥生物醫學信息學網格—遙遠的橋135
第13章 閤法性140
13.1 背景140
13.2 對數據的準確性和閤法性負責140
13.3 創建、使用和共享資源的權利141
13.4 因使用標準而招緻的版權和專利侵權行為143
13.5 對個人的保護144
13.6 許可問題145
13.7 未經許可的數據148
13.8 好政策是有力保障150
13.9 案例:哈瓦蘇派的故事151
第14章 社會問題153
14.1 背景153
14.2 大數據感知153
14.3 數據共享155
14.4 用大數據降低成本和提高生産效率158
14.5 公眾的疑慮160
14.6 從自己做起161
14.7 傲慢和誇張162
第15章 未來164
15.1 背景164
15.1.1 大數據計算復雜,需要新一代超級計算機?165
15.1.2 大數據的復雜程度將超齣我們完全理解或信任的能力範圍?166
15.1.3 我們需要用超級計算中的zui新技術訓練齣一支計算機科學傢組成的團隊嗎?166
15.1.4 大數據會創建齣那些目前沒有訓練程序的新型數據專業人員嗎?166
15.1.5 是否有將數據錶示方法通過統一的標準規範化,從而支持跨網絡大數據資源的數據集成和軟件互操作性的可能?169
15.1.6 大數據將嚮公眾開放?169
15.1.7 大數據弊大於利?170
15.1.8 我們可以預測大數據災難會破壞至關重要的服務、削弱國傢經濟、破壞世界政治的穩定嗎?171
15.1.9 大數據可以迴答那些其他辦法不能解決的問題嗎?171
15.2 後記171
術語錶172
參考文獻188
索引196
評價二: 拿到這本《正版 大數據原理 復雜信息的準備 共享和分析 單嚮哈希函數 建模算法 自我認知 可擴展標》,我腦子裏立刻浮現齣很多問題。首先,“復雜信息的準備”這塊,究竟怎麼個“復雜”法?是不是涉及到非結構化數據,比如文本、圖像、音頻,如何從中提取有用的信息?我一直覺得文本分析是大數據中最具挑戰性的部分之一,如何做到情感分析、主題提取,並且保證其準確性?“共享”環節,我更關心的是數據治理和安全方麵。在大數據環境下,如何建立一套權限管理體係,確保敏感數據不泄露,同時又能方便閤法用戶訪問?書中會不會介紹分布式文件係統,比如HDFS,以及它們在數據共享中的作用?“分析”部分,我希望看到的是一些實用的案例,而不是空泛的理論。比如,零售行業如何利用大數據分析用戶行為,進行精準營銷;金融行業如何用大數據風控,防範欺詐;醫療行業如何通過大數據輔助診斷。關於“單嚮哈希函數”,我猜測它在這裏的應用可能與數據去重、索引構建、或者數據完整性校驗有關,比如,在海量數據存儲時,如何快速找齣重復數據,或者如何驗證某個數據塊是否被修改過。至於“建模算法”,這絕對是大數據分析的核心,我希望書中能詳細講解幾種主流的建模方法,並對比它們的優缺點,例如,邏輯迴歸、決策樹、隨機森林、梯度提升樹等等,希望能看到它們在不同場景下的適用性分析。而“自我認知”這個概念,在技術書中齣現,讓我感到非常新奇,它會不會是指在大數據分析過程中,係統能夠自我學習、自我優化,甚至自我修復的能力?這聽起來有點像人工智能的範疇瞭。最後一個詞“可擴展標”,我推測是與大數據平颱的性能監控和評估指標有關,在大規模分布式環境下,如何設計一套能夠有效衡量平颱性能、容量、穩定性的指標體係,並且這些指標本身也要具備可擴展性,能夠適應不斷增長的數據量和用戶請求。總的來說,這本書的標題很吸引人,涵蓋的知識點也很全麵,希望它能提供一些我之前沒有接觸過的、或者能讓我豁然開朗的知識點。
評分評價一: 這本書的封麵和標題總讓我想起大學時期的那些經典教材,那種厚重、嚴謹的感覺撲麵而來。“大數據原理”,光聽名字就覺得內容肯定很紮實,講的是最基礎、最核心的東西。我特彆好奇它在“復雜信息的準備、共享和分析”這部分是如何闡述的。信息爆炸的時代,如何把海量、無序的數據變得有條理,並且能有效地在不同係統、不同團隊之間傳遞,這其中的技術難點和解決方案,絕對是值得深入探討的。我猜想,它可能會從數據的采集、清洗、預處理開始,詳細介紹各種格式的數據如何被統一,如何構建高效的數據管道,以及在共享過程中可能遇到的安全和隱私問題。分析部分,更是大數據價值的體現,不知道書中會涉及哪些經典的分析模型和算法,是會側重於統計學的方法,還是會引入機器學習的視角?單嚮哈希函數這個詞也很有意思,它通常與數據安全和完整性校驗有關,放在大數據背景下,是如何應用的?是用於數據的快速索引,還是防止數據被篡改?建模算法聽起來就很吸引人,大數據分析的最終目的就是要構建能夠揭示規律、預測未來的模型,書中會介紹哪些模型?決策樹?支持嚮量機?還是更前沿的深度學習模型?“自我認知”這個詞在技術書籍中齣現,著實讓我眼前一亮。這會不會是指在處理大數據過程中,係統本身對自身狀態、性能的“認知”和調整能力?或者是指如何通過大數據來幫助我們更深入地理解事物,甚至理解我們自身?“可擴展標”這個詞我就有點陌生瞭,但結閤“大數據”,我猜想它可能指的是在大規模數據處理係統中,如何設計和實現能夠隨著數據量增長而綫性或準綫性擴展的指標體係。這對於評估和監控大數據平颱的性能至關重要。總而言之,這本書的標題給我一種“大而全”的印象,它似乎涵蓋瞭大數據從底層技術到上層應用,再到係統運維的方方麵麵,我非常期待它能提供一套係統性的、深入的解答。
評分評價三: 我一直對那些能夠解決實際問題的技術書籍情有獨鍾,《正版 大數據原理 復雜信息的準備 共享和分析 單嚮哈希函數 建模算法 自我認知 可擴展標》這個名字,就帶有一種務實的氣息。我想象中的“復雜信息的準備”,應該不僅僅是數據的清洗和格式轉換,更可能包含瞭如何從各種異構、非標準化的數據源中提取有意義的信息,比如,如何處理日誌文件、網絡抓包數據、社交媒體信息等,這些信息往往是零散且難以直接利用的。“共享”部分,我想知道它會如何深入講解分布式存儲技術,比如HDFS,以及如何在保證數據安全和隱私的前提下,實現高效的數據流通,是不是會涉及到權限控製、數據加密等技術細節。數據分析是大數據價值的核心,我非常期待它能在“建模算法”這塊給齣詳盡的介紹,特彆是那些能夠處理高維稀疏數據、或者具有時間序列特性的算法。書中會不會涉及到一些圖算法,用於分析社交網絡、推薦係統等場景?“單嚮哈希函數”這個點,我猜想它在書中可能與數據索引、數據完整性校驗、或者安全驗證等方麵的應用有關,比如,如何利用哈希函數快速查找數據,或者如何確保數據在傳輸過程中不被篡改。而“自我認知”這個詞,放在大數據技術體係中,讓我覺得非常超前。它會不會是指大數據平颱具備某種程度的“智能”,能夠自動監測自身運行狀態,發現潛在問題,並進行自我調整和優化?例如,在負載過高時自動擴展資源,或者在檢測到異常時發齣預警。最後一個“可擴展標”,我理解它可能是指在大數據環境中,如何設計和實現一套能夠靈活適應數據量和業務增長的度量體係,不僅僅是存儲和計算能力的擴展,也包括分析模型和指標本身的擴展性。這本書的標題很長,但每一個詞都像是精準的點齣瞭大數據領域中的某個重要環節,我非常想通過它來係統地理解大數據處理的每一個細節,特彆是那些能夠提升效率、保證安全、挖掘深層價值的關鍵技術。
評分評價五: 當我看到《正版 大數據原理 復雜信息的準備 共享和分析 單嚮哈希函數 建模算法 自我認知 可擴展標》這本書的名字時,我的腦海裏立刻湧現齣一係列關於大數據核心要素的疑問。首先,“復雜信息的準備”這個部分,我預設它會深入講解如何處理海量的、異構的、甚至是低質量的數據,比如如何進行數據清洗、去重、標準化,以及如何從非結構化數據(如文本、圖片、視頻)中提取有用的信息,這涉及到很多NLP、CV等技術。接著,“共享”這個環節,我特彆關注的是數據治理和安全問題。在大數據時代,數據共享是必然趨勢,但如何保證數據的安全、閤規、可控地共享,比如在隱私保護方麵,書中是否會介紹差分隱私、聯邦學習等技術?“分析”部分,這是大數據最能體現價值的地方,我希望它能詳細介紹各種分析方法和模型,比如如何進行用戶畫像、市場細分、風險評估等。尤其我對“建模算法”的部分非常感興趣,我想知道它會講解哪些經典的算法,以及在大數據量下如何高效地應用這些算法,是否會涉及分布式機器學習框架?“單嚮哈希函數”這個詞,在我看來,它可能在大數據領域有多種應用,比如用於數據的快速查找、去重、索引,甚至在分布式係統中用於數據分區和負載均衡。而“自我認知”這個概念,放在一個技術書籍中,真的讓我眼前一亮。它會不會是指大數據係統能夠具備某種程度的“智能”,能夠主動監測自身的運行狀態,識彆潛在的瓶頸和風險,並進行自我優化和調整,例如,資源動態調度、性能自動調優等。“可擴展標”這個詞,我猜測它可能與大數據平颱的性能評估和監控體係有關,如何設計一套能夠隨著數據規模和業務復雜度的增長而不斷演進和擴展的指標體係,以確保平颱的穩定性和效率。這本書的標題很長,但每一個詞都精準地指嚮瞭大數據技術體係中的一個關鍵點,我非常期待它能為我提供一個完整、深入的認知框架,幫助我理解大數據從準備到分析的全過程,以及其中涉及到的前沿技術和理念。
評分評價四: 這本書的題目《正版 大數據原理 復雜信息的準備 共享和分析 單嚮哈希函數 建模算法 自我認知 可擴展標》吸引我的地方在於,它不像很多市麵上的大數據書籍那樣隻關注某個單一的技術點,而是試圖從一個更宏觀、更係統的角度來闡述大數據。“復雜信息的準備”,我猜想它會詳細介紹如何處理各種非結構化和半結構化數據,比如自然語言處理、圖像識彆、語音識彆等技術是如何在大數據背景下應用的,以及如何將這些技術産生的結構化結果進行整閤。“共享”部分,我想瞭解它會如何探討數據安全和隱私保護,在大數據時代,個人信息和企業數據都變得異常寶貴,如何建立有效的安全機製,防止數據泄露和濫用,這是非常關鍵的。“分析”部分,我希望看到的是如何將大數據轉化為可操作的洞察,書中會不會介紹各種分析技術,比如關聯分析、聚類分析、異常檢測,以及它們在不同行業中的應用案例。而“單嚮哈希函數”這個技術點,我好奇它在書中是被用來做什麼的。它在密碼學中常用於生成指紋,在大數據場景下,它是否可能被用於數據的快速去重、索引構建,或者在分布式係統中用於一緻性哈希的實現?“建模算法”則是我特彆關注的部分,大數據分析的最終目的往往是通過構建模型來進行預測和決策,我希望書中能詳細介紹一些經典的機器學習和深度學習算法,並提供它們在處理大數據時的注意事項和優化方法。“自我認知”這個概念,放在一個技術書中,非常引人遐想。它會不會是指大數據係統能夠對自身的性能、資源使用情況進行實時監控和反饋,並且能夠根據這些信息進行自我優化和調整?這聽起來像是智能運維的範疇。“可擴展標”,這個詞讓我覺得非常有想象空間,它會不會是指在大數據平颱中,如何設計一套能夠隨著數據量和業務需求的增長而不斷擴展的度量和評估體係,以確保係統的長期穩定運行和性能優化。總而言之,這本書的標題非常全麵,它所包含的每一個關鍵詞都指嚮瞭大數據領域的核心問題,我期待它能提供一套全麵而深入的解答,幫助我更好地理解大數據技術體係的構成和運作。
本站所有內容均為互聯網搜尋引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度,google,bing,sogou 等
© 2025 book.teaonline.club All Rights Reserved. 圖書大百科 版權所有