發表於2024-12-25
西門子高級研究員田疆博士作序力薦!Google軟件工程師呂佳楠力、英偉達高級工程師華遠誌、理光軟件研究院研究員鍾誠博士力薦!
作者擁有超過5年的機器學習研發經驗,目前在京東專注於深度學習和計算機視覺算法的研發。
西門子高級研究員田疆博士作序力薦!Google軟件工程師呂佳楠、英偉達高級工程師華遠誌、理光軟件研究院研究員鍾誠博士力薦!
注重原理和上手實戰,讓讀者不僅能理解算法背後的思想,還能具備獨立開發基於深度學習的計算機視覺算法的能力。
原理講解通俗易懂,能通過圖文定性講解的就盡量不用公式,不可避免要用公式的地方盡量讓公式作為圖文講解的輔助手段。
結閤常見的應用場景,通過大量有趣、實用的實例和原創代碼,帶領讀者一步步親自動手,不斷提高動手能力。
從第7章開始的所有實例都基於當前流行的深度學習框架Caffe和MXNet,其中包含瞭作者原創的大量代碼和搜集的數據。
本書全麵介紹瞭深度學習及計算機視覺中基礎的知識,並結閤常見的應用場景和大量實例,帶領讀者進入豐富多彩的計算機視覺領域。作為一本“原理+實踐”教程,本書在講解原理的基礎上,通過有趣的實例帶領讀者一步步親自動手,不斷提高動手能力,而不是枯燥和深奧原理的堆砌。
全書共13章,分為2篇。第1篇基礎知識,介紹瞭人工智能發展曆程、計算機視覺概要、深度學習和計算機視覺中的基礎數學知識、神經網絡及其相關的機器學習基礎、捲積神經網絡及其一些常見結構,最後對前沿的趨勢進行瞭簡單探討。第2篇實例精講,介紹瞭Python基礎、OpneCV基礎、簡單的分類神經網絡、圖像識彆、利用Caffe做迴歸、遷移學習和模型微調、目標檢測、度量學習和圖像風格遷移等常見的計算機視覺應用場景。本書從第5章開始包含很多有趣和實用的代碼示例。從第7章開始的所有實例都基於當前流行的深度學習框架Caffe和MXNet,其中包含作者原創的大量代碼和搜集的數據,這些代碼和作者訓練好的部分模型已分享到本書github頁麵上供讀者自行下載。
本書適閤對人工智能、機器學習、深度學習和計算機視覺感興趣的讀者閱讀。閱讀本書要求讀者具備一定的數學基礎和基本的編程能力,並需要讀者瞭解Linux的基本使用。
一分鍾瞭解本書精華內容
引言
深度學習和計算機視覺中的基礎數學知識
神經網絡和機器學習基礎
深度捲積神經網絡
Python基礎
OpenCV基礎
Hello World!
簡單的圖片分類——手寫數字識彆
利用Caffe做迴歸
遷移學習和模型微調
目標檢測
度量學習
圖像風格遷移
葉韻
2007年7月畢業於北京大學信息科學技術學院,獲學士學位。2011年4月獲得瞭美國亞利桑那州立大學的電氣工程博士學位。擁有超過5年的機器學習研發經驗。目前在京東專注於深度學習和計算機視覺算法的研發。加入京東前,曾先後在ProPlus Design Solutions矽榖和北京研發中心任職研發經理,負責統計建模和機器學習算法的研發。後加入西門子中國研究院擔任研究員,專注於計算影像和計算機視覺的研究。
這本書廣泛而翔實地介紹瞭深度學習的方方麵麵,並且由淺入深地闡釋瞭經典CNN算法。作者語言風趣、幽默,對於那些對深度學習充滿興趣,想躍躍欲試的入門讀者而言,是一本極好的參考讀物。
——華遠誌 NVIDIA(英偉達)公司高級工程師
Codelab是Google工程師文化的重要組成部分,有經驗的程序員理論結閤實踐,將新技術和新工具用實例的方式加以介紹。無論是Noogler還是Senior Googler,麵對Google龐雜的內部技術,正是Codelab使大傢能夠快速無師自通。葉博士的這本“實戰”正是機器學習各領域的一個個高質量的Codelab,是作者多年來摸索積纍的第一手經驗的總結。對於善於學習推廣的程序員,一定可以在學習Deep Learning的路上發現此書大有助益,事半功倍。
——呂佳楠 Google 公司軟件工程師
本書對時下熱門的深度學習技術從多個視角進行瞭細緻剖析。從深度學習理論在AI領域的進化史,到深度學習理論的數學基礎,再到利用工具快速構建深度學習模型,書中都有深入淺齣的講解。書中描述瞭深度學習技術在計算機視覺各個領域的新應用,內容全麵而豐富,示例通俗易懂,是一本帶領工程人員深入理解深度學習技術的實用寶典。
——鍾誠 博士,理光軟件研究院研究員
序言
前言
第1篇 基礎知識
第1章 引言 2
1.1 人工智能的新焦點——深度學習 2
1.1.1 人工智能——神話傳說到影視漫畫 2
1.1.2 人工智能的誕生 3
1.1.3 神經科學的研究 4
1.1.4 人工神經網絡的興起 5
1.1.5 神經網絡的第一次寒鼕 6
1.1.6 神經網絡的第一次復興 8
1.1.7 神經網絡的第二次寒鼕 9
1.1.8 2006年——深度學習的起點 10
1.1.9 生活中的深度學習 11
1.1.10 常見深度學習框架簡介 12
1.2 給計算機一雙眼睛——計算機視覺 14
1.2.1 計算機視覺簡史 14
1.2.2 2012年——計算機視覺的新起點 16
1.2.3 計算機視覺的應用 17
1.2.4 常見計算機視覺工具包 19
1.3 基於深度學習的計算機視覺 19
1.3.1 從ImageNet競賽到AlphaGo戰勝李世石——計算機視覺超越人類 19
1.3.2 GPU和並行技術——深度學習和計算視覺發展的加速器 21
1.3.3 基於捲積神經網絡的計算機視覺應用 22
第2章 深度學習和計算機視覺中的基礎數學知識 27
2.1 綫性變換和非綫性變換 27
2.2 概率論及相關基礎知識 43
2.3 維度的詛咒 50
2.4 捲積 66
2.5 數學優化基礎 71
第3章 神經網絡和機器學習基礎 87
3.1 感知機 87
3.2 神經網絡基礎 89
3.3 後嚮傳播算法 95
3.4 隨機梯度下降和批量梯度下降 104
3.5 數據、訓練策略和規範化 108
3.6 監督學習、非監督學習、半監督學習和強化學習 117
第4章 深度捲積神經網絡 120
4.1 捲積神經網絡 120
4.2 LeNet——第一個捲積神經網絡 132
4.3 新起點——AlexNet 133
4.4 更深的網絡——GoogLeNet 136
4.5 更深的網絡——ResNet 142
第2篇 實例精講
第5章 Python基礎 148
5.1 Python簡介 148
5.2 Python基本語法 150
5.3 Python的科學計算包——NumPy 167
5.4 Python的可視化包——matplotlib 175
第6章 OpenCV基礎 182
6.1 OpenCV簡介 182
6.2 Python-OpenCV基礎 184
6.3 用OpenCV實現數據增加小工具 193
6.4 用OpenCV實現物體標注小工具 203
第7章 Hello World! 212
7.1 用MXNet實現一個神經網絡 212
7.2 用Caffe實現一個神經網絡 219
第8章 最簡單的圖片分類——手寫數字識彆 227
8.1 準備數據——MNIST 227
8.2 基於Caffe的實現 228
8.3 基於MXNet的實現 242
第9章 利用Caffe做迴歸 249
9.1 迴歸的原理 249
9.2 預測隨機噪聲的頻率 250
第10章 遷移學習和模型微調 264
10.1 吃貨必備——通過Python采集美食圖片 264
10.2 美食分類模型 271
第11章 目標檢測 288
11.1 目標檢測算法簡介 288
11.2 基於PASCAL VOC數據集訓練SSD模型 296
第12章 度量學習 304
12.1 距離和度量學習 304
12.2 用MNIST訓練Siamese網絡 307
第13章 圖像風格遷移 317
13.1 風格遷移算法簡介 317
13.2 MXNet中的圖像風格遷移例子 320
序言
深度學習是機器學習的一個重要分支,它以簡化的方式模擬人腦復雜的神經係統,從而達到對數據的高級抽象。近些年,深度學習在語音識彆、計算機視覺、自然語言處理、生成網絡和無監督學習等領域都有著廣泛的應用,從很多方麵改變著人們的日常生活。
互聯網巨頭榖歌、Facebook、亞馬遜、微軟、百度、阿裏巴巴和騰訊等公司都建立瞭相應的深度學習部門和平颱。隨著近幾年深度學習的快速發展,相繼齣現瞭大量的開源軟件平颱,如Caffe、MXNet、TensorFlow和Torch等。這些平颱多數都有相應的Python和C++接口,功能非常強大。但是對於初學者來說,還是有一定的門檻。
本書架起瞭一座初學者和開源深度學習軟件之間的橋梁,緻力於幫助初學者進入機器學習特彆是深度學習在計算機視覺中的應用等領域。本書涵蓋瞭基礎的數學、機器學習和圖像識彆等內容,同時對兩個主流的開源深度學習庫Caffe和MXNet都有大量的實戰例子描述分類和迴歸等問題。
本書作者在深度學習領域有著深入的研究,善於把復雜的問題用淺顯易懂的語言描述齣來,使得本書內容引人入勝。本書結構閤理,內容涵蓋瞭計算機視覺領域的一些主要問題。對於一個學習計算機視覺的新手來說,本書的數學推導淺顯易懂,從一些簡單例子開始,然後推廣到抽象的矩陣描述方式,大大減輕瞭學習負擔。讀者可以通過前7章的學習,對神經網絡、基礎的數學和編程技巧有一個全麵的瞭解。在此基礎上可以根據具體的問題參考本書中具體的章節,例如圖像識彆、迴歸和目標檢測等。在這些章節中,讀者可以按照書中的步驟搭建自己的應用。
田疆
西門子高級研究員
前言
為什麼要寫這本書
當本書編輯找到我時,我纔意識到,這兩年火爆程度堪比一綫城市房價的深度學習,在國內竟沒有幾本專門的中文書籍。目前市場上為數不多的有關深度學習的中文書,有大而全的名傢之作,但其中關於深度學習的內容隻有很少的一部分;有針對框架的工具書,但其偏重框架本身,缺少基礎知識和理論,就好像介紹瞭一把劍,卻沒教劍法;有科普型的書,主要作用是提振讀者自信,其實讀者並不能從中學到任何動手能力。最重要的是,作為深度學習被應用最多,也是最有趣的領域——計算機視覺,卻沒有專門的書,這是筆者編寫這本書的初衷。
我並非計算機科班齣身,在轉嚮深度學習的過程中遇到瞭很多問題,總結瞭許多經驗。從寫書的角度來講,這沒準是個優勢。希望我在業界實際項目中的經驗,加上自學時總結的教訓,可以有效地幫助尚未進入深度學習和計算機視覺領域的讀者。
本書麵嚮有誌於進入深度學習和計算機視覺領域的學生和技術研發人員,通過介紹深度學習及計算機視覺中最基礎的知識,並結閤最常見的應用場景和大量實例,帶領讀者進入豐富多彩的計算機視覺領域。作為一本“原理+實踐”教程,本書用最基本的公式推導加上大量的配圖和實例代碼,給讀者生動的內容,而不是枯燥的原理堆砌。
本書特色
l 注重原理和上手實戰。力求讀者在閱讀本書後,不僅能瞭解常見算法背後的思想,還能具備獨立開發常見的基於深度學習的計算機視覺算法的能力。
l 原理講解通俗易懂。本書能通過文字定性講解的就不用計算和公式,能用圖錶述的就不用文字。公式雖然不可避免,但盡量做到公式是講解和圖示的輔助,而不是需要細緻理解的部分。
l 大量原創代碼和圖示。本書結閤作者在實際工作中的經驗,將入門實戰的例子和其他示例力求做到實用性和趣味性並存,並將代碼分享到本書的github頁麵上供讀者下載。
本書內容
本書共13章,分為2篇。
第1篇 基礎知識
第1章從曆史講起,介紹瞭深度學習和計算機視覺的基礎概念和常見應用。
第2章介紹瞭最基礎的數學知識,包括綫性代數、概率、高維空間、捲積和數學優化。
第3章以神經網絡為重點,講解瞭機器學習和數據的基礎知識。
第4章在第3章的基礎上,介紹瞭捲積神經網絡的概念、原理和一些常見結構。
第2篇 實例精講
第5章介紹Python基礎,並通過小例子介紹瞭NumPy和matplotlib的基本使用。
第6章介紹瞭基於Python的OpenCV使用,並動手實現瞭數據增加小工具和物體框標注小工具。
第7章分彆通過MXNet和Caffe實現瞭最簡單的神經網絡,以及結果的可視化。
第8章從頭開始一步步基於MNIST數據集,分彆實現瞭基於MXNet和Caffe的捲積神經網絡模型用於手寫數字識彆,並介紹瞭如何測試和評估模型。
第9章實現瞭一個基於Caffe的用捲積神經網絡做迴歸的例子,並介紹瞭如何製作HDF5格式數據,如何用GPU批量對數據進行運算,以及如何實現可視化訓練的模型。
第10章首先實現瞭一個圖片爬蟲用於搜集圖片數據,並以美食圖片分類為例子一步步講解如何基於Caffe實現遷移學習。然後在此基礎上進一步講解瞭如何對數據進行預處理,如何使用混淆矩陣、P-R和ROC麯綫,最後介紹瞭如何實現可視化捲積神經網絡對輸入圖片的響應。
第11章針對R-CNN係和YOLO/SSD係這兩類算法,簡要介紹瞭基於深度學習的目標檢測算法的發展史,並給齣瞭基於MXNet的SSD檢測算法實例,以及分析瞭結果的可視化。
第12章介紹瞭度量學習的基本概念,並從圖片開始,一步步實現瞭基於Caffe的Siamese網絡,還實現瞭基於τ-SNE的結果可視化。
第13章講解瞭最基本的圖像風格遷移算法,並給齣瞭基於MXNet的圖像風格遷移例子,讀者可以用自己喜歡的圖片做齣算法生成的藝術作品。
適閤閱讀本書的讀者
本書適閤以下讀者閱讀:
l 對人工智能、機器學習感興趣的讀者;
l 對深度學習和計算機視覺感興趣的讀者;
l 希望用深度學習完成設計的計算機或電子信息專業的學生;
l 講授機器學習和深度學習實踐課的老師;
l 希望進一步提升編程水平的開發者;
l 機器學習與機器視覺研發人員和算法工程師;
l 人工智能産品經理。
閱讀本書的讀者最好具備以下要求:
l 至少具備高中以上的數學基礎,本科以上最佳;
l 具備基本的編程能力;
l 瞭解Linux的基本使用;
l 擁有一颱NVIDIA顯卡的計算機,最好是2GB以上的顯存。
本書雖然定位為入門書,但並不能保證21天或者3個月包會。學習是一件沒有捷徑可走的事情,希望本書能幫助讀者少走彎路,也希望每一位讀者翻開書前,都是帶著好奇和興趣。
糾錯
由於是第一次寫書,且時間倉促,錯誤之處估計難以避免,敬請讀者朋友們發現錯誤後到本書的github頁麵指齣,我會盡快更新在勘誤錶裏,不勝感激!
緻謝
成書過程中,得到瞭很多人的幫助,在此嚮他們錶示誠摯的謝意。
首先感謝負責本書的編輯,我既不是大V,博客文章也沒幾篇,是他們的信任讓我能通過這次寫作梳理知識,並獲得稿費。
感謝我的朋友們:NVIDIA(英偉達)的高級工程師華遠誌,榖歌的軟件工程師呂佳楠,清華大學的馬晨同學,NVIDIA的高效GPU架構師歐陽晉博士,西門子的高級研究員田疆博士,理光軟件研究院的研究員鍾誠博士和亞馬遜的科學傢莊曉天博士。他們幾位在成書過程中給予瞭我很多幫助和建議,特彆是田疆博士、鍾誠博士和歐陽晉博士,對本書內容給齣瞭全麵且獨到的建議,並指齣瞭部分錯誤。
感謝京東從事AI方嚮的同事們,他們各個都身懷絕技,工作中和他們的交流給瞭我很多技術上的幫助和靈感。
感謝插畫師翟少昂為本書繪製插畫,感謝星河互聯高級投資經理楊森授權本書使用他於漠河的嚴鼕中拍攝的照片。
感謝我的博士生導師Yu Cao教授和我第一傢效力公司的CTO——Bruce McGaughy博士。在應試教育的影響下,我渾渾噩噩求學近20載,未曾找到學習的意義。和他們二位接觸的過程中我纔漸漸明白,原來學習最重要的是興趣。也因此,後來我纔有勇氣放棄瞭鑽研瞭近10年的老本行,轉嚮自己更感興趣的算法和機器學習。
最後也是我最想感謝的,是我的傢人!寫書期間我的傢人承擔瞭一切傢務勞動,是他們全方位的支持和細緻照顧,讓我在身體健康的狀態下完成瞭寫作。特彆是我的妻子,盡管她看不懂我在寫什麼,卻認為寫得很棒。是她每天的鼓勵和支持纔讓我沒有半途而廢,能在此錶達我對她的謝意,是我完成這本書的最大動力。
葉韻
於北京市西郊機場老乾部活動中心
深度學習與計算機視覺:算法原理、框架應用與代碼實現 下載 mobi pdf epub txt 電子書 格式 2024
深度學習與計算機視覺:算法原理、框架應用與代碼實現 下載 mobi epub pdf 電子書給彆人買來的,感覺還可以,應該是正版吧
評分質量不錯,送貨快_一如既往支持
評分嗯,我覺得這本書講的挺詳細的,大傢都可以看一看,當然那個深度學習,還有另外幾本那個網上在綫的書也都挺好的,如果大傢感興趣的話可以聯係我,我可以把網上鏈接發給你,當然那幾個是英文的吧,當然也有中文的吧,而不是不是我能給的都是英文的
評分內容上看,對涉及的知識點講的還比較清楚,給一星一是因為從github粘代碼粘瞭好多頁,而且粘的Python代碼居然沒縮進,講代碼的地方根本就沒法看,你們可以看圖感受一下左對齊的Python代碼,真的是丟程序猿的臉。二是印刷質量有問題,好多頁都重影瞭最後兩張是栗子,放個魔方證明不是鏡頭糊瞭,是印刷的重影。
評分科技前沿 專心學習ing
評分書籍不錯,講的很生動,容易理解
評分618活動超值,囤瞭很多書,慢慢看吧,但願一年之後能看完
評分買瞭很多書、京東618很給力~
評分配閤深度學習一起看
深度學習與計算機視覺:算法原理、框架應用與代碼實現 mobi epub pdf txt 電子書 格式下載 2024