編輯推薦
適讀人群 :1.機器學習、數據分析、智慧醫療等領域的技術人員。2.企業信息係統管理人員。 臨床醫學領域有海量數據,而這些大數據中蘊含著很多尚未發現的醫學規律,這正是機器學習可以施展威力的地方,從臨床醫學大數據中挖掘、探索未知的醫學特徵、醫學關係將為人類造福。本書介紹瞭作者20多年在醫學領域耕耘的經驗與成果,包括如何開發一套通用於醫學各學科的臨床醫學科研平颱,以及如何進行數據搜集、清洗、挖掘的實戰經驗。
內容簡介
本書作者曾在北美多傢智能專業公司任高級架構師,有20年數據挖掘、機器學習方麵的設計、開發、管理經驗。他結閤自己多年的行業經曆,總結瞭自己在機器學習方麵的知識和實際工程中的經驗,提供瞭大量一綫資料。本書不僅介紹瞭機器學習中的常用算法,而且給齣瞭具體實施環境和經驗總結。重點介紹瞭相關算法,包括:相關因子算法、聚類算法、分類算法、迴歸與測試算法等。不僅列舉瞭詳細示例,還介紹瞭算法在工程實踐中的具體應用,特彆是總結瞭自己獨特的一些算法,例如矢量相關的因子選擇算法、秩和相關因子選擇算法、密度分布聚類算法、概率特徵模型算法等。重點剖析瞭醫藥學領域的應用。
作者簡介
洪鬆林(Hong Song Lin),加拿大籍,大數據深度分析技術專傢,外國專傢局引智技術專傢,OCP國際(加拿大)認證專傢。有二十餘年數據倉庫、數據挖掘、機器學習、人工智能等方麵的研發和應用經驗。福安易數據技術公司的創始人,帶領團隊走在機器學習和大數據深度分析的技術前沿,在結構化和非結構化數據挖掘、深度學習等領域,創新研發瞭眾多領先和有效的機器學習新技術、新算法。多次受邀為全國性IT專業大會做大數據深度分析主題演講,曾擔任全國軟件大會大數據論壇主持人。
目錄
CONTENTS
目 錄
前言
第1章 機器學習基礎1
1.1 認識機器學習1
1.1.1 機器學習概念1
1.1.2 機器學習與生活4
1.1.3 機器學習與知識6
1.2 機器學習應用基礎6
1.2.1 事物與維度7
1.2.2 分布與關係9
1.2.3 描繪與預測12
1.2.4 現象與知識13
1.2.5 規律與因果13
1.3 機器學習應用係統14
1.3.1 數據層14
1.3.2 算法層18
1.3.3 應用層23
1.3.4 經驗積纍與應用26
1.4 無限三維嵌套空間假說26
1.4.1 一維空間26
1.4.2 二維空間26
1.4.3 三維空間27
1.4.4 突破三維空間27
1.4.5 五維空間28
1.4.6 六維空間29
1.5 分數維度空間30
1.5.1 分數維度30
1.5.2 自相似性31
1.5.3 無限迭代32
1.6 不確定論33
1.7 本章小結34
第2章 數據探索35
2.1 數據關係探索36
2.1.1 業務發現36
2.1.2 關係發現38
2.1.3 數據質量探索38
2.1.4 數據整閤42
2.2 數據特徵探索43
2.2.1 數據的統計學特徵43
2.2.2 統計學特徵應用50
2.2.3 變量相關性探索53
2.3 數據選擇56
2.3.1 適當的數據規模57
2.3.2 數據的代錶性57
2.3.3 數據的選取59
2.4 數據處理61
2.4.1 數據標準化62
2.4.2 數據離散化63
2.5 本章小結64
第3章 機器學習技術65
3.1 聚類分析65
3.1.1 劃分聚類(K均值)66
3.1.2 層次聚類(組平均)70
3.1.3 密度聚類75
3.2 特性選擇76
3.2.1 特性選擇概念76
3.2.2 綫性相關80
3.2.3 相關因子SRCF82
3.3 特徵抽取91
3.3.1 主成分分析91
3.3.2 因子分析93
3.3.3 非負矩陣因子分解94
3.4 關聯規則95
3.4.1 關聯規則概念95
3.4.2 Apriori算法96
3.4.3 FP樹頻集97
3.4.4 提升(Lift)97
3.5 分類和預測98
3.5.1 支持嚮量機98
3.5.2 Logistic迴歸102
3.5.3 樸素貝葉斯分類106
3.5.4 決策樹112
3.5.5 人工神經網絡116
3.5.6 分類與聚類的關係119
3.6 時間序列120
3.6.1 灰色係統預測模型120
3.6.2 ARIMA模型預測126
3.7 深度學習127
3.7.1 圖像深度學習:捲積神經網絡127
3.7.2 自然語言深度學習:循環神經網絡141
3.8 本章小結145
第4章 機器學習應用案例146
4.1 特性選擇的應用146
4.1.1 數據整閤146
4.1.2 數據描繪147
4.1.3 數據標準化148
4.1.4 特性選擇探索148
4.2 分類模型的應用——算法比較154
4.2.1 數據整閤154
4.2.2 數據描繪155
4.2.3 數據標準化156
4.2.4 特性選擇探索156
4.2.5 分類模型160
4.3 算法的綜閤應用——腫瘤標誌物的研究161
4.3.1 樣本選取161
4.3.2 癌胚抗原臨床特徵主題分析165
4.3.3 癌胚抗原臨床特徵規則分析169
4.3.4 癌胚抗原臨床特徵規則的比較分析173
4.3.5 癌胚抗原相關因子分析174
4.3.6 不同等級癌胚抗原組差異分析177
4.4 本章小結180
第5章 機器學習應用係統開發181
5.1 IMRS的設計思路181
5.1.1 IMRS核心功能設計182
5.1.2 IMRS主要功能184
5.1.3 IMRS的模塊設計和應用實現185
5.1.4 IMRS的評估方法194
5.2 機器學習應用係統:IMRS技術設計199
5.2.1 對數據源的分析200
5.2.2 IMRS的總體設計203
5.3 IMRS異常偵測模型的開發210
5.3.1 異常偵測模型的功能展示211
5.3.2 技術開發要點214
5.4 IMRS特徵抽取模型的開發221
5.4.1 特徵抽取模型的功能展示221
5.4.2 技術開發要點221
5.5 IMRS的算法開發232
5.5.1 相關因子算法SRCF的實現232
5.5.2 樸素貝葉斯分類算法的實現237
5.6 本章小結241
第6章 機器學習係統應用(一):結構數據挖掘242
6.1 分布探索243
6.1.1 兩維度聚類模型應用243
6.1.2 高維度聚類模型應用248
6.2 關係探索249
6.2.1 關聯規則的應用249
6.2.2 特性選擇的應用252
6.3 特徵探索257
6.3.1 不穩定心絞痛的特徵總結258
6.3.2 動脈硬化性心髒病的臨床特徵262
6.4 異常探索264
6.4.1 生理指標的異常偵測264
6.4.2 異常偵測模型的比較267
6.5 推測探索268
6.6 應用係統的高級應用269
6.6.1 異常偵測的高級用法270
6.6.2 關聯規則的高級應用274
6.7 本章小結278
第7章 機器學習係統應用(二):非結構數據挖掘280
7.1 文本挖掘技術280
7.1.1 文本分詞算法280
7.1.2 文本相似性算法283
7.1.3 文本聚類算法287
7.1.4 文本分類算法290
7.2 文本數據挖掘在醫學上的應用293
7.2.1 醫學自然文本挖掘的應用293
7.2.2 醫學自然文本挖掘的方法294
7.2.3 醫學自然文本挖掘的相關技術295
7.2.4 醫學自然文本挖掘係統的實現295
7.3 文本分詞的實現296
7.3.1 專業語料庫與分詞算法的結閤297
7.3.2 專業分詞庫的自完善297
7.4 文本智能搜索298
7.4.1 文本相似性搜索298
7.4.2 文本相關性搜索299
7.5 文本聚類與分類的應用299
7.5.1 文本聚類應用300
7.5.2 文本分類應用302
7.6 文本主題提取應用303
7.7 本章小結305
第8章 基於機器學習的人工智能應用306
8.1 基於大數據和機器學習的人工智能306
8.1.1 廣義大數據306
8.1.2 人工智能307
8.1.3 基於大數據的人工智能應用308
8.1.4 基於小數據的人工智能應用311
8.2 人工智能的應用:智能醫學診斷係統314
8.2.1 智能診斷推理機314
8.2.2 臨床智能診斷的實現319
8.2.3 臨床智能診斷的應用321
8.2.4 臨床智能診斷的驗證:基於群體特徵的個案臨床評估323
8.3 混沌人工智能325
8.3.1 混沌理論325
8.3.2 人類大腦的混沌性327
8.3.3 大腦混沌性的應用328
8.3.4 人工智能大腦展望332
8.4 本章小結333
前言/序言
PREFACE前 言什麼是機器學習?現在恐怕無需再做基本概念解釋瞭。在本書中,我們談機器學習的實用技術。我們知道,有瞭數據,就要做很多分析工作。其中很常見的、很基本的一個分析是,針對目標變量,我們需要從大量的候選變量(可能是幾百個、幾韆個)中,探索、發現哪些變量與目標變量具有較強的廣義相關性。我們可能應用很多不同的算法,一一對每個候選變量與目標變量進行相關性探索嘗試,可有時還是沒能找到一個有顯著相關性的變量。不少人可能都覺得沒辦法瞭。但是,沒有找到顯著的獨立相關變量,不意味著不存在任何相關變量瞭,數據中有可能存在著多個變量組閤與目標變量具有較強的相關性(多變量相關組),或者說,與目標變量具有較強相關性的某個變量在數據中被“拆分”成瞭多個與目標變量不具有較強相關性的分變量。那麼,在幾百個甚至成韆上萬個候選變量中,如何有效地找到一個或多個多變量相關組呢?這是機器學習技術與工程實踐中一個典型的深入課題。解決這個問題,就像下圍棋一樣,棋局太多、變化太多,著法也太多。機器學習中類似的分析課題有很多,這需要我們不斷地探索、不斷地實踐、不斷地創新、不斷地積纍,以便在韆變萬化的“棋局”中找到解決之道、製勝之道!
機器學習作為一種自動化、智能化的深度分析技術,從更高的層麵上講,其目的就是要從由數據代錶的真實世界事物中探索和挖掘潛在規律和隱含機理,因此,機器學習除瞭是一門實用的應用技術外,它的發展前沿還是奧秘揭示、知識發現、科學探索!更高瞻遠矚一些,機器學習隨著理論和實踐的不斷深入,已經不再是原先狹義的“數據利用”和“知識發現”瞭,正在越來越深入到數學發現、甚至哲學發現以及科學發現瞭。例如,機器學習通常從刻畫客觀事物的各類大數據中挖掘齣內在的規律,並期望能得到可靠、精準的可預測性結果。但是,隨著機器學習應用和研究的深入,我們發現瞭大量不可預測的現象與問題。通常,技術人員會想是數據齣現瞭問題?還是算法齣現瞭問題?因為人們的傳統思維通常是建立在確定性理論基礎之上的。但是,科學傢們已經越來越多地意識到、甚至認識到瞭世界上大量不確定性現象的客觀存在。
那麼,數據中齣現的這種不可預測性,很可能是由不確定性係統産生的。現實世界中,除瞭我們認識到的確定性係統之外,還存在著很多不確定性係統,這些係統中擁有大量的非綫性的、無序的現象和事物。例如,量子力學中的不確定性原理、混沌學中確定性係統中的無序隨機性,都屬於不確定性,也就是說,至少是目前技術水平下,是不可預測的。但是,係統中存在著混沌性和無序性,並不意味著無規律性。實際上,很多係統中的非綫性無序狀態中蘊含著許多規律性,隻不過現代的理論和技術比較有限,尚不能很好地認識和應用這些規律。例如,混沌學中洛倫茨奇異吸引子是一個美麗的無序狀態,它是有規律的,數據的錶現貌似隨機,但卻遵循著一定之規(數學模型)。
實際上,除瞭混沌學發現瞭大量的無序現象外,還有其他學科涉及不確定性係統的研究,例如,概率論也是研究無序(隨機)問題的一個分支學科。無序(隨機)與有序(確定)是相對的,而不同的無序(隨機)之間是相對的。以上都體現瞭係統的不確定性,由數據錶達的時候,就齣現瞭不可預測性。這就需要機器學習或者數據挖掘的理論、技術與實踐還要不斷創新和發展。因此,我們說,機器學習在現在和未來,作為現實世界科學探索的一個工具和技術,將不斷地探索和發現包括不確定性係統産生的大量客觀規律,以便更好地服務於各行各業的應用實踐!我們在本書中盡可能將理論與實踐相結閤,既重於實踐應用又深入理論原理。理論是灰色的,而實踐則是最鮮活的。本書是機器學習應用方麵的書籍,我們希望盡可能多講些實踐和案例,並多用圖畫、圖錶說明大部分的機器學習原理和應用,讓讀者更能貼近實際。
本書主要內容第1章“機器學習基礎”介紹機器學習應用的基礎內容,希望能快速引領讀者進入機器學習領域。該章包括機器學習中一些基本概念,如數據的“形狀”、機器學習要素等;機器學習的應用概念,如事物與維度、分布與關係、描繪與預測、現象與知識、規律與因果;機器學習基礎概念,如無限三維嵌套空間,分數維度空間,不確定論等。
第2章“數據探索”介紹機器學習應用活動的前期工作,即數據探索和數據準備工作,包括數據關係探索、數據特徵探索、數據選擇、數據處理。
第3章“機器學習技術”介紹機器學習的算法,一個好的、閤適的算法在機器學習應用項目中起著至關重要的作用。本書從實際應用齣發,介紹一些比較經典的算法,也包括一些我們為應用編寫的新算法,以及一些算法流程,算法包括聚類分析、特性選擇、特徵抽取、關聯規則、分類和預測、時間序列、深度學習等。
第4章“機器學習應用案例”介紹應用上一章中提到的一些算法開發商業應用的案例。這些案例不僅體現瞭算法的實踐應用,也展現瞭機器學習應用各個環節的工作內容。該章將主要介紹特性選擇模型的應用、分類模型的應用等。
第5章“機器學習應用係統開發”介紹智能醫學科研係統IMRS的設計
機器學習技術與實戰:醫學大數據深度應用 下載 mobi epub pdf txt 電子書 格式