发表于2024-11-09
本书是国内首部机器学习应用于Web安全的作品,作者是百度安全专家,他用风趣幽默的语言诠释了超过15种的机器学习算法,及其在Web安全领域中的实际应用,非常实用,包括所有案例源代码,以及公开的测试数据,可极大地降低学习成本,使读者快速上手实践。
在现今的互联网公司中,产品线绵延复杂,安全防御体系无时无刻不在应对新的挑战。哪怕是拥有丰富工作经验的安全从业者,在面对层出不穷的攻击手段和海量日志数据时也会望洋兴叹。机器学习是这些问题天然契合的解决方案,在数据量以指数级不断增长的未来,甚至有可能是出路
本书由百度安全专家撰写,零基础学习智能化Web安全技术指南,二十多位业界专家联袂推荐。本书首先介绍主流的机器学习工具,以及Python应用于机器学习的优势,并介绍Scikit-Learn环境搭建、TensorFlow环境搭建。接着介绍机器学习的基本概念和Web安全基础知识。然后深入讲解几个机器学习算法在Web安全领域的实际应用,如K近邻、决策树、朴素贝叶斯、逻辑回归、支持向量机、K-Means算法、FP-growth、隐式马尔可夫、有向图、神经网络等,还介绍了深度学习算法CNN、RNN。本书针对每一个算法都给出了具体案例,理论结合实际,讲解清晰,文笔幽默,适合有信息安全基础知识的网络开发与运维技术人员参考。
刘焱 百度安全Web防护产品线负责人,负责百度安全的Web安全产品,包括防DDoS、Web应用防火墙、Web威胁感知、服务器安全以及安全数据分析等,具有近十年云安全及企业安全从业经历,全程参与了百度企业安全建设。研究兴趣包括机器学习、Web安全、僵尸网络、威胁情报等。他是FreeBuf专栏作家、i春秋知名讲师,多次在OWASP 、电子学会年会等发表演讲,参与编写了《大数据安全标准白皮书》。他还建立了微信公众号:“兜哥带你学安全”,发布了大量信息安全技术知识。
此亦笃信之年,此亦大惑之年。此亦多丽之阳春,此亦绝念之穷冬。人或万事俱备,人或一事无成。我辈其青云直上,我辈其黄泉永坠。——《双城记》狄更斯著,魏易译
如今是一个人工智能兴起的年代,也是一个黑产猖獗的年代;是一个机器学习算法百花齐放的年代,也是一个隐私泄露、恶意代码传播、网络攻击肆虐的年代。AlphaGo碾压柯洁之后,不少人担心AI会抢了人类的工作,然而信息安全领域专业人才严重匮乏,极其需要AI来补充专业缺口。
兜哥的这本书展示了丰富多彩的机器学习算法在错综复杂的Web安全中的应用,是一本非常及时的人工智能在信息安全领域的入门读物。正如书中所述,没有好的算法,只有合适的算法。虽然这几年深度学习呼声很高,但各种机器学习算法依然在形形色色的应用场景中有着各自独特的价值,熟悉并用好这些算法在安全领域的实战中会起到重要的作用。
——Lenx,百度首席安全科学家,安全实验室负责人
存储和计算能力的爆发式增长,让我们获得了比以往更全面、实时地获取以及分析数据的潜在能力,但面对产生的海量信息如何快速准确地转化为业务需求则需要依赖一些非传统的手段。就安全领域来说,原先依赖于规则的问题解法过于受限于编写规则的安全专家自身知识领域的广度和深度,以及对于问题本质的理解能力。但我们都知道,安全漏洞层出不穷,攻击利用的方式多种多样,仅仅依赖于规则进行问题的发现在现阶段的威胁形势下慢慢变得捉襟见肘。面对威胁,企业安全人员需要打造这样一种能力,它能够让我们脱离单纯的点对点的竞争,case by case的对抗,转而从更高的维度上来审视业务,发现潜在的异常事件。这些异常事件可能会作为安全人员深入调查的起点,让我们具备找到原有安全能力盲区以及发现新威胁的能力,使我们的技能水平以及对威胁的响应速度能持续提升。同时这种能力和防御体系结合,也有可能让我们达到在面对某些未知威胁时,以不变应万变,获得天然免疫的理想状态。兜哥的这本书或许是开启我们这种能力的一把钥匙。本书通过介绍通俗易懂的机器学习原理,结合实际企业中的安全业务需求场景,让广大安全人员能够感受到这种“如日中天”的技术在传统安全领域内如何大放异彩。最后,May the force be with you。
——王宇,蚂蚁金服安全总监
百度是拥有海量互联网数据的几家公司之一,兜哥是百度前IT安全负责人,现Web安全产品负责人,研发的产品不仅应用于百度公司内部检测网络攻击,也应用在多个百度的商业安全产品中,服务于数万站长。兜哥的团队是国内极早一批将机器学习算法应用于网络安全场景的团队之一,本书聚集了兜哥及其团队多年的安全实践经验,覆盖了互联网公司可能会遇到的多个安全场景, 比如用图算法检测WebShell等,非常好地解决了百度商业安全客户被入侵留后门的问题。兜哥将自己的技术选型、算法、代码倾囊相授,我相信本书的出版将会大大降低安全研发工程师转型安全数据分析专家的难度,值得推荐。
——黄正,百度安全实验室X-Team负责人。
在大数据时代,犯罪分子作案的手段越来越高明,手动分析的成本越来越高,效率也越来越低;与此同时,人工智能技术越来越成熟,安全与人工智能技术相结合,才能适应新的环境,推荐安全从业者学习这本书。
——桑文峰,神策数据创始人&CEO;
网络世界的攻击与防护对抗发展到今天,各种技术已经日趋专业和精细,通过古老的string-match的防御方式越来越不能适应新的攻击环境,对于想尝试着把机器学习和安全相结合的从业人员来说,阅读本书是个很好的开端。
——赵林林,微步在线技术合伙人,前美团、高德安全负责人
就我有限的了解,在很长一段时间里,安全技术和机器学习技术都是分别演进的。安全问题几乎会伴随着任何新生事物而来,并与之同生长,这也使得安全研究人员往往会把注意力局限于关注事物的个体特征而忽略其群体特征;而有的时候,即使有意于群体特征的研究,也可能会囿于工具和方法以致难于寸进,这对安全问题的解决形成了事实上的约束。机器学习作为一种可以从另一个维度来解决问题的技术,则对此约束进行了相当程度的突破。用新工具去解决老问题,这要求对这两者都有比较深入的了解(例如 AlphaGo),基于了解而进行实践,基于实践而予以总结分享,这样的知识分享和传递,正是刘焱这本书的价值所在。
——张宇平,数盟CTO
在安全分析中要想用好机器学习,需要精通算法、懂得攻防、理解数据,三方面的知识缺一不可。这样的人固然难找,兜哥却恰好是其中的一员。兜哥凭借在一线互联网企业多年的安全实战经验给读者奉上了这本满满都是干货的大作。书中没有烦琐的公式推演,一切用代码说话,特别适合了解算法原理、不知道如何在实际中应用的人学习。我个人读后深受启发,也推荐给身边每一个做安全数据分析的同行。
——周涛,启明星辰“鸿雁”计划首席研究员
在大数据时代潮流中,如何将大数据思想应用于网络安全技术是一个非常重要的主题。本书将Web安全与机器学习相结合,提出以数据驱动为基础,利用海量的数据资源分析Web恶意攻击,以通俗易懂的语言讲述了机器学习在Web安全领域多个方面的应用。对Web安全以及大数据安全感兴趣的人,这本书是一个很好的选择。
——李琦,清华大学副研究员
伴随着互联网的爆炸式发展,网络安全已上升到国家层面,按效果说话的安全能力建设得到高度重视。与此同时,安全团队却又不得不面对百花齐放的业务场景、大规模的数据中心,以及愈加剧烈、复杂和不确定性的网络攻击。如何在传统攻防对抗之外,寻找更有效、可落地的对抗方式,已成为各大企业安全团队思考的重点。所幸,近些年来,计算和存储资源已不是安全团队的瓶颈,安全团队自身在工程能力上也已非昔日吴下阿蒙。机器学习成为近些年来安全领域里第一批从学术走向工业的应用方向,并已有很多阶段性的实践成果。很欣喜地看到兜哥一直在推进机器学习系列的文章并编写了此书。此书重点讲解了常见机器学习算法在不同场景下的潜在应用和实践,非常适合初学者入门。希望此书能够启发更多的同行继续实践和深耕机器学习应用这个方向,并给安全行业带来更多的反馈和讨论。
——程岩,京东安全首席架构师
人工智能的技术发展正在不断加速,是时候探讨如何将机器学习应用于安全领域了。人工智能真的能在未来对抗网络攻击、自主保护我们的系统吗?这本书打开了一道门。这不仅是一部机器学习的科普书,一部机器学习在安全场景下的实战书,更是一部鼓励技术创新应用的行动指南。
——谢忱,FreeBuf联合创始人,斗象科技COO
安全正在发生变革,已经从专家模式逐渐演变成系统化、平台化,而随着机器学习和大数据技术的发展,未来安全将逐渐智能化。而这种变化已经得到了验证,在业务安全领域风控系统的基础数据中,如IP和用户画像、设备指纹生成和识别、规则的挖掘都使用大量的机器学习算法;在网络安全领域,如何入侵检测系统发现未知的攻击、如何解决无效的攻击行为也采用了大量的分类和关联规则算法。兜哥作为互联网企业的安全界资深研究者,一直对新技术的运用进行探索,这本书将为你打开安全智能化的大门。
——吴圣,58同城高级架构师
机器学习一直是高大上的领域,作者结合自己的实际工作和研究,把机器学习在安全领域的应用讲得深入浅出、很接地气,稍具基础知识的读者就可动手体验应用机器学习的美妙感受。
——姚志武,借贷宝安全总监
纵观安全行业近十余年的攻击方式,从早的单机小工具到如今分布式、大数据、自动化等攻击方式,防御的方式不得不随之不断升级,于是出现各种云安全产品,这些产品都能产生大量有价值的数据,但却少有产品能够真正利用这些数据实现联动防御,所以这些云都是单朵的小云。我们需要利用人工智能将这些数据进行联动,进行多维度、高精度的深入分析,还原攻击路径,才能真正实现态势感知,防御未知攻击。而人工智能的基础就是机器学习,让机器自适应、自分析、自决策,未来的安全防御必须具备这样的特性。本书采用实例的方式讲解机器学习在安全领域的应用,不仅能让读者了解到机器学习,还能让读者了解到攻击方式的检测手段,是一本难得的好书。
——尹毅,Sobug技术合伙人,《代码审计:企业级Web代码安全架构》作者
在机器学习领域中,大多数的实用方向都表现在图像识别、广告推荐和个性画像等方面,但很少看见安全领域相关的机器学习方法和介绍,因为“安全”的概念是很模糊的,有的场景中,很少有合适的模型、适用的参数,甚至没有明确的算法。这本书介绍了基础的机器学习应用和方法,并结合部分特殊的场景对安全领域中较为常见和较为烦琐的分析提供了很好的例子和思维模型,不论是安全从业人员或者是机器学习领域的研究者,都值得阅读,可以从本书中获得很多好的启发和灵感。
——Kevin1986,搜狐资深安全研究员
不知道十余年前,在兜哥刚刚踏上安全这条“不归路”时,有没有想过如今的工作会面对多么错综复杂的环境,担负着数亿用户的信赖。在大型互联网公司中,产品线绵延复杂,每一个新产品的上线,每一次版本的迭代更新,都有不可预知的安全问题出现,安全防御体系也无时无刻不在应对新的挑战。哪怕是拥有丰富工作经验的安全从业者,在面对层出不穷的攻击手段和海量的日志数据时也会望洋兴叹。机器学习是这些问题天然契合的解决方案,在数据量以指数级不断增长的未来,甚至有可能是一条的出路。机器学习如今可以说是如日中天的热词,但对于初学者来说可能并不是很容易就能掌握的技能。将学习到的内容应用在安全工作中更是难上加难。这或许也是机器学习经常出现在安全从业者视野中,却鲜有人愿意深入研究的原因之一吧。兜哥作为互联网安全领域内机器学习的先导践行者,可以说是从零开始,在不断尝试中摸索出了一条新的道路。毫无疑问,这是一个艰难而有价值的过程。这本书作为走过这段历程之后的总结与分享,兜哥将多年的工作经验毫无保留地倾注于其中,以一个甲方安全人员的视角,将机器学习如何应用在Web安全工作的各个方面,用诙谐易懂的语言娓娓道来。在一气呵成地读罢兜哥亲手递过的样章之后,我只有一个想法:如今的Web安全领域,太需要这样一本佳作了。或许未来的某一天,机器学习或者说人工智能已经成为了保护互联网安全的中坚力量。回头一看,正是本书在路途的起点为我们指明了方向。
——幻泉,i春秋教研中心总监
识别各类攻击一直是安全领域内难以解决的问题,由于语言的多样性,利用传统规则匹配来识别攻击已经过时,传统安全技术的发展也已经到了瓶颈,而本书提出机器学习结合 Web 安全的思路为安全技术发展指出了新的方向。相信读者阅读本书后能受益匪浅。
——西瓜,四叶草CTO
安全监控的建立产生海量安全日志,人工查看审计日志已经无法解决企业实际安全需求。随着硬件成本降低,大数据技术成熟,机器学习在企业安全中的实践应运而生。本书详细介绍了如何通过机器学习分析海量安全日志,发现隐匿的攻击,本书是企业安全建设中不可多得的孙子兵法。
——廖威,易宝支付安全总监
早在2009在百度工作时,就因为工作交集认识了本书作者刘焱。期间经常讨论安全技术问题,为他的渊博知识与钻研精神所折服。近年来,Web安全被越来越多的人所重视,攻防对抗上升到一个新的高度。各种新的攻击方法层出不穷,传统的检测与防御方式已不再适应,迫切需要更加智能的方法。随着机器学习的爆发式发展,两者的结合将是未来的趋势。在本书中,刘焱将枯燥复杂的算法、概念以简单易懂的图文结合方式呈现出来,并夹杂着他一贯的幽默风格,内容由浅入深、循序渐进。应用机器学习是未来的发展趋势,学习掌握它使创造出新一代的安全产品成为可能。希望大家喜欢这本书,并从中受益。
——刘袁君,医渡云安全总监
通过机器学习分析海量Web日志,进而发现业务异常和安全问题已经是安全监控平台的标配。然而,市场上信息安全和机器学习结合的工具书却很少,本书从基础知识和实际案例出发,逐步抽丝剥茧带你进入自动化安全的殿堂。书中的算法和思路是经过大规模部署和商业验证的,具备很强的可操作性。
——宋文宽,联想集团信息安全高级经理
对本书的赞誉
序一
序二
序三
前言
第1章 通向智能安全的旅程 1
1.1 人工智能、机器学习与深度学习 1
1.2 人工智能的发展 2
1.3 国内外网络安全形势 3
1.4 人工智能在安全领域的应用 5
1.5 算法和数据的辩证关系 9
1.6 本章小结 9
参考资源 10
第2章 打造机器学习工具箱 11
2.1 Python在机器学习领域的优势 11
2.1.1 NumPy 11
2.1.2 SciPy 15
2.1.3 NLTK 16
2.1.4 Scikit-Learn 17
2.2 TensorFlow简介与环境搭建 18
2.3 本章小结 19
参考资源 20
第3章 机器学习概述 21
3.1 机器学习基本概念 21
3.2 数据集 22
3.2.1 KDD 99数据 22
3.2.2 HTTP DATASET CSIC 2010 26
3.2.3 SEA数据集 26
3.2.4 ADFA-LD数据集 27
3.2.5 Alexa域名数据 29
3.2.6 Scikit-Learn数据集 29
3.2.7 MNIST数据集 30
3.2.8 Movie Review Data 31
3.2.9 SpamBase数据集 32
3.2.10 Enron数据集 33
3.3 特征提取 35
3.3.1 数字型特征提取 35
3.3.2 文本型特征提取 36
3.3.3 数据读取 37
3.4 效果验证 38
3.5 本章小结 40
参考资源 40
第4章 Web安全基础 41
4.1 XSS攻击概述 41
4.1.1 XSS的分类 43
4.1.2 XSS特殊攻击方式 48
4.1.3 XSS平台简介 50
4.1.4 近年典型XSS攻击事件分析 51
4.2 SQL注入概述 53
4.2.1 常见SQL注入攻击 54
4.2.2 常见SQL注入攻击载荷 55
4.2.3 SQL常见工具 56
4.2.4 近年典型SQL注入事件分析 60
4.3 WebShell概述 63
4.3.1 WebShell功能 64
4.3.2 常见WebShell 64
4.4 僵尸网络概述 67
4.4.1 僵尸网络的危害 68
4.4.2 近年典型僵尸网络攻击事件分析 69
4.5 本章小结 72
参考资源 72
第5章 K近邻算法 74
5.1 K近邻算法概述 74
5.2 示例:hello world!K近邻 75
5.3 示例:使用K近邻算法检测异常操作(一) 76
5.4 示例:使用K近邻算法检测异常操作(二) 80
5.5 示例:使用K近邻算法检测Rootkit 81
5.6 示例:使用K近邻算法检测WebShell 83
5.7 本章小结 85
参考资源 86
第6章 决策树与随机森林算法 87
6.1 决策树算法概述 87
6.2 示例:hello world!决策树 88
6.3 示例:使用决策树算法检测POP3暴力破解 89
6.4 示例:使用决策树算法检测FTP暴力破解 91
6.5 随机森林算法概述 93
6.6 示例:hello world!随机森林 93
6.7 示例:使用随机森林算法检测FTP暴力破解 95
6.8 本章小结 96
参考资源 96
第7章 朴素贝叶斯算法 97
7.1 朴素贝叶斯算法概述 97
7.2 示例:hello world!朴素贝叶斯 98
7.3 示例:检测异常操作 99
7.4 示例:检测WebShell(一) 100
7.5 示例:检测WebShell(二) 102
7.6 示例:检测DGA域名 103
7.7 示例:检测针对Apache的DDoS攻击 104
7.8 示例:识别验证码 107
7.9 本章小结 108
参考资源 108
第8章 逻辑回归算法 109
8.1 逻辑回归算法概述 109
8.2 示例:hello world!逻辑回归 110
8.3 示例:使用逻辑回归算法检测Java溢出攻击 111
8.4 示例:识别验证码 113
8.5 本章小结 114
参考资源 114
第9章 支持向量机算法 115
9.1 支持向量机算法概述 115
9.2 示例:hello world!支持向量机 118
9.3 示例:使用支持向量机算法识别XSS 120
9.4 示例:使用支持向量机算法区分僵尸网络DGA家族 124
9.4.1 数据搜集和数据清洗 124
9.4.2 特征化 125
9.4.3 模型验证 129
Web安全之机器学习入门 下载 mobi pdf epub txt 电子书 格式 2024
Web安全之机器学习入门 下载 mobi epub pdf 电子书兜哥出品,必属精品
评分包括如何使用Kong保护API接口;
评分物流快速,内容较新,操作性还可以
评分业务网的基础安全加固,包括资产管理、补丁管理、操作系统加固等;
评分兜哥出品,必属精品。
评分物流很快,书也不错,谢谢!
评分产品很不错,性价比也不错,服务也还可以。
评分降价来的太突然了。赶紧买两件。
评分不错不错不错不错不错不错不错
Web安全之机器学习入门 mobi epub pdf txt 电子书 格式下载 2024