發表於2024-11-14
本書是作者AI安全領域三部麯的第三部,重點介紹強化學習和生成對抗網絡的基礎知識和實際應用,特彆是在安全領域中攻防建設的實際應用。
主要內容包括:
AI安全的攻防知識
基於機器學習的惡意程序識彆技術
常見的惡意程序免殺方法
如何使用強化學習生成免殺程序
如何使用強化學習提升WAF的防護能力
如何使用強化學習提升反垃圾郵件的檢測能力
針對圖像分類模型的攻擊方法
針對強化學習的攻擊方法
劉焱 百度安全實驗室資深研究員,AI安全産品架構師,研究領域主要包括AI安全、IOT安全、Web安全。原百度安全Web安全産品綫負責人、基礎架構安全負責人;FreeBuf、雷鋒網專欄作傢、i春鞦知名講師,多次在OWASP 、電子學會年會發錶演講,參與編寫全國信息安全標準化技術委員會發布的《大數據安全標準白皮書》;“兜哥帶你學安全”創始人;著有AI安全領域三部麯:《Web安全之機器學習入門》《Web安全之深度學習實戰》《Web安全之強化學習與GAN》。
此亦篤信之年,此亦大惑之年。此亦多麗之陽春,此亦絕念之窮鼕。人或萬事俱備,人或一事無成。我輩其青雲直上,我輩其黃泉永墜。—《雙城記》狄更斯 著,魏易 譯
如今是一個人工智能興起的年代,也是一個黑産猖獗的年代;是一個機器學習算法百花齊放的年代,也是一個隱私泄露、惡意代碼傳播、網絡攻擊肆虐的年代。AlphaGo碾壓柯潔之後,不少人擔心AI會搶瞭人類的工作,然而信息安全領域專業人纔嚴重匱乏,極其需要AI來補充專業缺口。
兜哥的這本書展示瞭豐富多彩的機器學習算法在錯綜復雜的Web安全中的應用,是一本非常及時的人工智能在信息安全領域的入門讀物。正如書中所述,沒有好的算法,隻有閤適的算法。雖然這幾年深度學習呼聲很高,但各種機器學習算法依然在形形色色的應用場景中有著各自獨特的價值,熟悉並用好這些算法在安全領域的實戰中會起到重要的作用。
——Lenx,百度首席安全科學傢,安全實驗室負責人
存儲和計算能力的爆發式增長,讓我們獲得瞭比以往更全麵、更實時獲取以及分析數據的潛在能力,但麵對産生的海量信息,如何快速準確地將其轉化為業務需求,則需要依賴一些非傳統的手段。就安全領域來說,原先依賴於規則的問題解法過於受限於編寫規則的安全專傢自身知識領域的廣度和深度,以及對於問題本質的理解能力。但我們都知道,安全漏洞層齣不窮,攻擊利用的方式多種多樣,僅僅依賴於規則來發現問題在現階段的威脅形勢下慢慢變得捉襟見肘。麵對威脅,企業安全人員需要打造這樣一種能力,它能夠讓我們脫離單純的點對點的競爭,case by case的對抗,轉而從更高的維度上來審視業務,發現潛在的異常事件,而這些異常事件可能會作為安全人員深入調查的起點。這種能力能讓我們找到原有安全能力盲區以及發現新威脅,促使我們的技能水平以及對威脅的響應速度持續提升。同時這種能力和防禦體係結閤,也有可能讓我們在麵對某些未知威脅時,達到以不變應萬變、獲得天然免疫的理想狀態。兜哥的這本書或許是開啓我們這種能力的一把鑰匙。本書用通俗易懂的語言介紹瞭機器學習原理,結閤實際企業中的安全業務需求場景,讓廣大安全人員能夠感受到這種“如日中天”的技術在傳統安全領域內如何大放異彩。May the force be with you。
——王宇,螞蟻金服安全總監
百度是擁有海量互聯網數據的幾傢公司之一,兜哥是百度前IT安全負責人,現Web安全産品負責人,研發的産品不僅應用於百度公司內部檢測網絡攻擊,也應用在多個百度的商業安全産品中,服務於數萬站長。兜哥的團隊是國內早一批將機器學習算法應用於網絡安全場景的團隊之一,本書聚集瞭兜哥及其團隊多年的安全實踐經驗,覆蓋瞭互聯網公司可能會遇到的多個安全場景, 比如用圖算法檢測WebShell等,非常好地解決瞭百度商業安全客戶被入侵留後門的問題。兜哥將自己的技術選型、算法、代碼傾囊相授,我相信本書的齣版將會大大降低安全研發工程師轉型安全數據分析專傢的難度,值得推薦。
——黃正,百度安全實驗室X-Team負責人,MSRC 2016中國區
伴隨著互聯網的爆炸式發展,網絡安全已上升到國傢戰略層麵,能直接看到效果的安全能力建設得到高度重視。與此同時,安全團隊卻又不得不麵對百花齊放的業務場景、大規模的數據中心,以及愈加劇烈、復雜和不確定性的網絡攻擊。如何在傳統攻防對抗之外尋找更有效、可落地的對抗方式,已成為各大企業安全團隊思考的重點。所幸,近些年來,計算和存儲資源已不再是安全團隊的瓶頸,安全團隊自身在工程能力上也已非昔日吳下阿濛。機器學習成為近些年來安全領域裏一批從學術走嚮工業的應用方嚮,並已有很多階段性的實踐成果。很欣喜地看到兜哥一直在推進機器學習係列的文章並編寫瞭此書。此書重點講解瞭常見機器學習算法在不同場景下的潛在應用和實踐,非常適閤初學者入門。希望此書能夠啓發更多的同行繼續實踐和深耕機器學習應用這個方嚮,並給安全行業帶來更多的反饋和討論。
——程岩,京東安全首席架構師
網絡安全是信息時代的重大挑戰和核心課題之一,而機器學習是迄今為止人工智能大廈堅實穩固的基石。本書從基本原理齣發,通過實際案例深入介紹和分析機器學習技術和算法在網絡安全領域的應用與實踐,是一本不可多得的入門指南和參考手冊。
——姚聰博士,北京曠視科技(Face++)有限公司高級研究員
對本書的贊譽
前言
第1章 AI安全之攻與防1
1.1 AI設備的安全2
1.2 AI模型的安全3
1.3 使用AI進行安全建設4
1.4 使用AI進行攻擊9
1.5 本章小結9
第2章 打造機器學習工具箱11
2.1 TensorFlow11
2.2 Keras13
2.3 Anaconda14
2.4 OpenAI Gym19
2.5 Keras-rl19
2.6 XGBoost19
2.7 GPU服務器20
2.8 本章小結23
第3章 性能衡量與集成學習24
3.1 常見性能衡量指標24
3.1.1 測試數據24
3.1.2 混淆矩陣25
3.1.3 準確率與召迴率25
3.1.4 準確度與F1-Score26
3.1.5 ROC與AUC27
3.2 集成學習28
3.2.1 Boosting算法29
3.2.2 Bagging算法31
3.3 本章小結32
第4章 Keras基礎知識34
4.1 Keras簡介34
4.2 Keras常用模型35
4.2.1 序列模型35
4.2.2 函數式模型35
4.3 Keras的網絡層36
4.3.1 模型可視化36
4.3.2 常用層38
4.3.3 損失函數44
4.3.4 優化器44
4.3.5 模型的保存與加載45
4.3.6 基於全連接識彆MNIST45
4.3.7 捲積層和池化層47
4.3.8 基於捲積識彆MNIST49
4.3.9 循環層49
4.3.10 基於LSTM進行IMDB情感分類52
4.4 本章小結54
第5章 單智力體強化學習55
5.1 馬爾可夫決策過程55
5.2 Q函數56
5.3 貪婪算法與-貪婪算法57
5.4 Sarsa算法59
案例5-1:使用Sarsa算法處理金幣問題60
5.5 Q Learning算法62
案例5-2:使用Q Learning算法處理金幣問題63
5.6 Deep Q Network算法64
案例5-3:使用DQN算法處理CartPole問題65
5.7 本章小結71
第6章 Keras-rl簡介72
6.1 Keras-rl智能體介紹73
6.2 Keras-rl智能體通用API73
6.3 Keras-rl常用對象75
案例6-1:在Keras-rl下使用SARSA算法處理CartPole問題75
案例6-2:在Keras-rl下使用DQN算法處理CartPole問題77
案例6-3:在Keras-rl下使用DQN算法玩Atari遊戲78
6.4 本章小結86
第7章 OpenAI Gym簡介87
7.1 OpenAI87
7.2 OpenAI Gym88
7.3 Hello World!OpenAI Gym89
7.4 編寫OpenAI Gym環境92
7.5 本章小結98
第8章 惡意程序檢測99
8.1 PE文件格式概述100
8.2 PE文件的節104
8.3 PE文件特徵提取107
8.4 PE文件節的特徵提取119
8.5 檢測模型121
8.6 本章小結129
第9章 惡意程序免殺技術130
9.1 LIEF庫簡介130
9.2 文件末尾追加隨機內容 132
9.3 追加導入錶132
9.4 改變節名稱133
9.5 增加節134
9.6 節內追加內容135
9.7 UPX加殼135
9.8 刪除簽名137
9.9 刪除debug信息138
9.10 置空可選頭的交驗和138
9.11 本章小結138
第10章 智能提升惡意程序檢測能力139
10.1 Gym-Malware簡介139
10.2 Gym-Malware架構141
10.2.1 PEFeatureExtractor141
10.2.2 Interface143
10.2.3 MalwareManipulator143
10.2.4 DQNAgent144
10.2.5 MalwareEnv145
10.3 惡意程序樣本148
10.4 本章小結149
第11章 智能提升WAF的防護能力150
11.1 常見XSS攻擊方式151
11.2 常見XSS防禦方式152
11.3 常見XSS繞過方式153
11.4 Gym-WAF架構155
11.4.1 Features類156
11.4.2 Xss_Manipulator類156
11.4.3 DQNAgent類160
11.4.4 WafEnv_v0類161
11.4.5 Waf_Check類162
11.5 效果驗證163
11.6 本章小結164
第12章 智能提升垃圾郵件檢測能力165
12.1 垃圾郵件檢測技術166
12.1.1 數據集166
12.1.2 特徵提取168
12.1.3 模型訓練與效果驗證171
12.1.4 模型的使用172
12.2 垃圾郵件檢測繞過技術173
12.2.1 隨機增加TAB174
12.2.2 隨機增加迴車174
12.2.3 大小寫混淆175
12.2.4 隨機增加換行符175
12.2.5 隨機增加連字符176
12.2.6 使用錯彆字176
12.3 Gym-Spam架構177
12.3.1 Features類178
12.3.2 Spam_Manipulator類178
12.3.3 DQNAgent類179
12.3.4 SpamEnv_v0類181
12.4 效果驗證182
12.5 本章小結183
第13章 生成對抗網絡184
13.1 GAN基本原理184
13.2 GAN係統架構185
13.2.1 噪音源185
13.2.2 Generator186
13.2.3 Discriminator187
13.2.4 對抗模型188
13.3 GAN188
13.4 DCGAN194
13.5 ACGAN202
13.6 WGAN210
13.7 本章小結217
第14章 攻擊機器學習模型218
14.1 攻擊圖像分類模型218
14.1.1 常見圖像分類模型219
14.1.2 梯度算法和損失函數222
14.1.3 基於梯度上升的攻擊原理224
14.1.4 基於梯度上升的算法實現226
14.1.5 基於FGSM的攻擊原理228
14.1.6 基於FGSM攻擊的算法實現229
14.2 攻擊其他模型231
案例14-1:攻擊手寫數字識彆模型233
案例14-2:攻擊自編碼器240
案例14-3:攻擊差分自編碼器249
14.3 本章小結262
網絡安全一直和AI相伴相生,從網絡安全誕生的那一天起,人們就一直試圖使用自動化的方式去解決安全問題。網絡安全專傢一直試圖把自己對網絡威脅的理解轉換成機器可以理解的方式,比如黑白名單、正則錶達式,然後利用機器強大的計算能力,夜以繼日地從流量、日誌、文件中尋找似曾相識的各類威脅。似乎這一切就是那麼天經地義並無懈可擊。事情似乎又沒有那麼簡單,機器其實並沒有完全學到人的經驗,網絡安全專傢一眼就可以識破的變形,對於機器卻難以理解;更可怕的是,惡意程序數量呈指數增長,各類新型攻擊方式層齣不窮,0day(零日攻擊)的齣現早已超過一綫明星齣現在新聞頭條的頻率,依靠極其有限的網絡專傢總結的經驗和幾個安全廠商所謂的樣本交換,已經難以應付現在的網絡安全威脅。如果安全專傢一眼就可以識破的威脅,機器也能夠自動化發現甚至做齣相應的響應,這已經是很大的進步;如果讓機器可以像AlphaGo理解圍棋一樣,能夠理解網絡威脅,那將是巨大進步。事情又迴到最初的那個問題,如何能讓機器真正學會識彆安全威脅?機器學習可能是一個不錯的答案。
目標讀者
本書麵嚮信息安全從業人員、大專院校計算機相關專業學生以及信息安全愛好者、機器學習愛好者,對於想瞭解人工智能的CTO、運維總監、架構師,本書同樣也是一本不錯的科普書籍。如果看完本書,可以讓讀者在工作學習中遇到問題時想起一到兩種算法,那麼我覺得就達到效果瞭;如果可以讓讀者像使用printf一樣使用SVM、樸素貝葉斯等算法,那麼這本書就相當成功瞭。
我寫本書的初衷是幫助安全愛好者以及信息安全從業者瞭解機器學習,可以動手使用簡單的機器學習算法解決實際問題。在寫作中盡量避免生硬的說教,能用文字描述的盡量不用冷冰冰的公式,能用圖和代碼說明的盡量不用多餘的文字,正如霍金說言,“多寫一個公式,少一半讀者”,希望反之亦然。
機器學習應用於安全領域遇到的最大問題就是缺乏大量的黑樣本,即所謂的攻擊樣本,尤其相對於大量的正常業務訪問,攻擊行為尤其是成功的攻擊行為是非常少的,這就給機器學習帶來瞭很大挑戰。本書很少對不同算法進行橫嚮比較,也是因為在不同場景下不同算法的錶現差彆的確很大,很難說深度學習就一定比樸素貝葉斯好,也很難說支持嚮量機就不如捲積神經網絡,拿某個具體場景進行橫評意義不大,畢竟選擇算法不像購買SUV,可以拿幾十個參數評頭論足,最後還是需要大傢結閤實際問題去選擇。
如何使用本書
本書的第1章主要介紹瞭如何打造自己的深度學習工具箱,介紹瞭AI安全的攻與防,介紹瞭針對AI設備和AI模型的攻擊,以及使用AI進行安全建設和攻擊。第2章介紹瞭如何打造深度學習的工具箱。第3章介紹瞭如何衡量機器學習算法的性能以及集成學習的基本知識。第4章介紹瞭Keras的基本知識以及使用方法,這章是後麵章節學習開發的基礎。第5章介紹瞭強化學習,重點介紹瞭單智力體的強化學習。第6章介紹瞭Keras下強化學習算法的一種實現Keras-rl。第7章介紹瞭強化學習領域經常使用的OpenAI Gym環境。第8章~第10章,介紹瞭基於機器學習的惡意程序識彆技術以及常見的惡意程序免殺方法,最後介紹瞭如何使用強化學習生成免殺程序,並進一步提升殺毒軟件的檢測能力。第11章介紹如何使用強化學習提升WAF的防護能力,第12章介紹如何使用強化學習提升反垃圾郵件的檢測能力。第13章介紹瞭對抗生成網絡的基礎知識,第14章介紹瞭針對機器學習模型的幾種攻擊方式,包括如何欺騙圖像識彆模型讓其指鹿為馬。每個案例都使用互聯網公開的數據集並配有基於Python的代碼,代碼和數據集可以在本書配套的GitHub下載。
本書是我機器學習三部麯的第三部,在第一部中,主要以機器學習常見算法為主綫,以生活中的例子和具體安全場景介紹機器學習常見算法,定位為機器學習入門書籍,便於大傢快速上手。全部代碼都可以在普通PC電腦上運行。在第二部中,重點介紹深度學習,並以具體的11個案例介紹機器學習的應用,麵嚮的是具有一定機器學習基礎或者緻力於使用機器學習解決工作中問題的讀者。本書重點介紹強化學習和對抗網絡,並介紹瞭AI安全的攻與防。一直有個遺憾的地方:深度學習的優勢發揮需要大量精準標注的訓練樣本,但是由於各種各樣的原因,我隻能在書中使用互聯網上已經公開的數據集,數據量級往往很難發揮深度學習的優勢,對於真正想在生産環境中驗證想法的讀者需要搜集更多樣本。
緻謝
這裏我要感謝我的傢人對我的支持,本來工作就很忙,沒有太多時間處理傢務,寫書以後更是花費瞭我大量的休息時間,我的妻子無條件承擔起瞭全部傢務,尤其是照料孩子方麵的繁雜事務。我很感謝我的女兒,寫書這段時間幾乎沒有時間陪她玩,她也很懂事地自己玩,我也想用這本書作為生日禮物送給她。我還要感謝編輯吳怡對我的支持和鼓勵,讓我可以堅持把這本書寫完。最後還要感謝各位業內好友尤其是我boss對我的支持,排名不分先後:馬傑@百度安全、馮景輝@百度安全、Tony@京東安全、程岩@京東安全、簡單@京東安全、林曉東@百度基礎架構、黃穎@百度IT、李振宇@百度AI、Lenx@百度安全、黃正@百度安全、郝軼@百度雲、雲鵬@百度無人車、趙林林@微步在綫、張宇平@數盟、謝忱@Freebuf、李新@Freebuf、李琦@清華、徐恪@清華、王宇@螞蟻金服、王泯然@螞蟻金服、王龍@螞蟻金服、周濤@啓明星辰、姚誌武@藉貸寶、劉靜@安天、劉元軍@醫渡雲、廖威@易寶支付、尹毅@sobug、宋文寬@聯想、團長@宜人貸、齊魯@搜狐安全、吳聖@58安全、康宇@新浪安全、幻泉@i春鞦、雅馳@i春鞦、王慶雙@i春鞦、張亞同@i春鞦、王禾@微軟、李臻@paloalto、西瓜@四葉草、鄭偉@四葉草、硃利軍@四葉草、土夫子@XSRC、英雄馬@樂視雲、sbilly@360、侯曼@360、高磊@滴滴、高磊@愛加密、高漸離@華為、劉洪善@華為雲、宋柏林@一畝田、張昊@一畝田、張開@安恒、李碩@智聯、阿杜@優信拍、李斌@房多多、李程@搜狗、姚聰@face+、李鳴雷@金山雲、吳魯加@小密圈,最後我還要感謝我的親密戰友陳燕、康亮亮、蔡奇、哲超、新宇、子奇、月升、王磊、碳基體、劉璿、錢華溝、劉超、王胄、吳梅、馮偵探、馮永校。
我平時在Freebuf專欄以及“i春鞦”分享企業安全建設以及人工智能相關經驗與最新話題,同時也運營我的微信公眾號“兜哥帶你學安全”,歡 Web安全之強化學習與GAN 下載 mobi epub pdf txt 電子書 格式
Web安全之強化學習與GAN 下載 mobi pdf epub txt 電子書 格式 2024
Web安全之強化學習與GAN 下載 mobi epub pdf 電子書活動滿減很劃算,書質量很好,還沒看,很期待。快遞也很快。好評,在京東買瞭好多書呀,要好好學習。
評分常見的幾種威脅情報源的獲取方式;
評分學習佳品,值得購買。 開發工程師推薦
評分發貨很及時,第二天就收到瞭。打摺力度很大,不錯。
評分快遞很快,第二天就收到瞭,書值得慢慢學習,慢慢體會,加油吧,聽說這本書的評價和口碑很好,買來學習學習。
評分逗哥的書很棒,看瞭一部分,學習下web安全新技術。
評分非常好!!!非常好!!!非常好!!!
評分給公司買的書,紙質還好,京東速度很快,一直送到辦公室,很方便。買過不知多少本書瞭。一直都很好。
評分一直想瞭解機器學習在web安全上應用的的知識,這本書正好
Web安全之強化學習與GAN mobi epub pdf txt 電子書 格式下載 2024