随着云计算、物联网、大数据等新兴技术的迅猛发展,数以亿计的网络接入点、联网设备以及网络应用产生的海量数据,给网络空间安全带来了巨大的困难和挑战,传统的安全问题解决方案面对海量数据变得效率低下。人工智能以其强大的自适应性、自学习能力为安全领域提供了一系列有效的分析决策工具,近年来引起了学术界与工业界的广泛关注和深入研究。在此形势下,人工智能技术在网络安全领域的应用需求迅速增加。
人工智能是包括十分广泛的科学,它由不同的领域组成,如机器学习,计算机视觉等等,其中机器学习是实现人工智能的一种方法,使用算法分析数据,从中学习并做出推断或预测。当前机器学习研究中的一个新的领域为深度学习,深度学习的动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像、声音和文本。简单来讲,人工智能是科学,机器学习是让机器变得更加智能的算法,机器学习在某种程度上成就了人工智能。
人工智能在信息安全领域的现状和发展趋势
发展现状
当前,人工智能技术在网络安全领域的应用需求多,技术优势大,产业发展势头良好。但人工智能相关核心算法和技术尚未成熟稳定,网络安全相关数据孤岛局面仍未破解,网络安全和人工智能人才严重短缺,人工智能在网络安全领域的应用尚未普及,相关安全产业尚未规模化发展。就整个网络安全领域而言,人工智能相关技术的应用目前还处于比较初级的阶段。
然而,随着网络安全数据量的爆发增长、深度学习算法的优化改进、计算能力的大幅提升,人工智能技术必将成为下一代网络安全解决方案的核心,人工智能在网络安全领域的应用必将呈现跨越式发展。
未来趋势
知名数据公司CB Insights利用Trends工具分析了数百万篇媒体文章,追踪热点技术的发展趋势,发现网络安全与人工智能共同出现的频率激增,“人工智能+网络安全”成为当前重要热点技术之一。机器学习、深度学习等人工智能技术在网络安全领域的应用正在引发新技术研发热潮和新安全产业增长。
应用领域
1.深度学习网络检测Web攻击
企业网站是黑客最热衷攻击的目标,大量黑客利用能更新攻击方法的自动化工具,批量对一批网站进行扫描,然后挑中攻击成功的网站进一步深挖。常见的自动化工具,延续以往使用开放式Web应用程序安全项目(Open Web Application Security Project,以下简称OWASP)常见攻击手法外,新近趋势开始往业务层攻击迁移,比如缓慢地长周期进行数据窃取,利用网站新推出业务的规则漏洞获得利益等。
深度学习网络负责检测基于单条 HTTP 请求的网络攻击,基于业务的攻击需要多个 HTTP 请求和响应合并起来分析,而且业务层攻击往往是不同网站攻击方式不同,需要安全人员分析确定。支持使用预定好的 Web 访问序列特征工程方法,把原生请求进行聚类,然后由安全人员挑出其中有问题的类,产生对应的分类算法模型。
2.深度学习检测二进制恶意样本
在业界基于特征码(也就是内容特征匹配)的技术仍然占有压倒性优势。统计发现,只要能拿到对应的病毒样本,各大杀毒引擎厂家都能在3小时左右部署特征码。但这个工业流程到达极限以后,厂商在后台拿到新样本的速度很难再提高,或者是拿到了也处理不过来(新病毒的产生速度一直在提高,有报告统计出每4.2秒就有一个新病毒产生)。
深度学习适用于病毒样本分类是因为,首先在图像识别、语音识别、机器翻译等领域的效果都远远超过非深度学习的算法。第二是深度学习擅长处理单一类型的数据。第三要求足够多的样本,而样本越多准确的也越高。根据 Symantec 的统计,单日样本可以达到 300 万。第四,可以避免人工去选择特征,只要一开始就设计好网络结构,深度学习会自动学习到重要的特征。再对比静态分析,比如用 N-gram模型(N-gram是机器学习中自然语言处理中的一个较为重要的语言模型),特征数量会轻松突破百万,再乘以上面的样本数,机器学习是必然选择。
总的来说,深度学习的优点,即:超多特征、无需人工特征、样本越多越好,这些都非常适合二进制病毒样本分类这个领域。
3.机器学习检测撞库攻击
利用K-means算法(K-means是最为经典的基于划分的聚类方法,是十大经典数据挖掘算法之一)无监督的聚类过程识别撞库事件,以源IP地址为聚类中心,量化多维参数来聚合可能的撞库登录行为,多维度参数包括:源IP、登录地址与账号画像的一致性、登录时间范围、登录账号、数量、登录成功/失败。对于每一个样例登录事件,计算其应该属于的类。
4.机器学习检测用户异常
涉及用户的安全场景,第一入口往往都是用户账号。比如暴力破解用户账号、其他途径盗取用户账号后尝试登录、职员违反规定共享账号等等。简单的场景,比如共享账号,可以通过规则配置来实现,比如一个账号不能通过两个IP登录而同时在线,复杂的场景,往往需要机器学习算法来对用户的行为基线进行建模。
当然传统上基线检测也可以基于规则,但往往仅限于能用数据描述的短周期行为,比如最近1小时内登录次数。这种描述方法简单死板。对所有用户设置一样的规则,不符合大型公司不同部门和角色员工应该有不同行为基线的要求,也跟不上员工行为的缓慢变化模式。所以通过算法自动捕捉住海量员工的丰富的长周期行为模式,而且能随着员工最近行为的变化而更新模式,才能在变化的企业环境中精准地找出异常用户行为。
保险行业在信息安全领域的进展
随着信息安全技术能力的提升,有些保险公司通过利用大数据分析、人工智能等技术,结合网络安全运营环境,开展相关领域的信息安全研究,实现新技术应用落地实践以及科技创新,其中基于人工智能的实时异常流量检测自学习、自适应式安全事件响应机制、主动式网络溯源分析以及威胁猎捕提高侦测率和基于人工智能/威胁情报的离线异常流量挖掘是主要研究和落地方向。有些保险公司的研究领域是内部员工异常行为分析,通过利用异常检测机器学习算法实现对内部员工行为的分析,相应的平台处于原型设计阶段。有些保险公司已对分散的安全告警、系统日志、网络流量,以及威胁情报、资产信息等上下文信息进行采集和解析,并将机器学习算法运用在核心业务系统、邮箱等相关安全场景。
保单数据是公司最为核心的资产,通过研究保单数据泄露检测场景,以公司内部网络通信数据为基础,建立基于机器学习“保单信息泄露”安全检测模型,弥补传统工具及技术对内网风险识别不足的现状,突破内网安全技术壁垒,将安全分析技术、大数据分析技术、机器学习技术等多领域进行有机契合。建立基于流量的机器学习系统,通过接入多个业务系统实际流量,检验机器学习在数据泄露场景下的实际效果。
Web防火墙是信息安全的第一道防线。随着网络技术的快速更新,新的黑客技术也层出不穷,为传统规则防火墙带来了挑战。传统web入侵检测技术通过维护规则对入侵访问进行拦截。一方面,硬规则在灵活的黑客面前,很容易被绕过,且基于以往知识的规则难以应对0day攻击;另一方面,攻防对抗水涨船高,防守方规则的构造和维护门槛高、成本大。基于机器学习技术的新一代web入侵检测技术有望弥补传统规则方法的不足,为web对抗的防守端带来新的发展和突破。
人工智能强势发展,在基础研究和产业落地方面都取得了一系列的令人瞩目的成果。各保险公司应因势而动、顺势而为,将机器学习运用在安全领域,通过对用户行为画像及对比异常行为来判断公司内部威胁。同时结合各公司的安全管控现状,深入研究人工智能在信息安全的应用领域,充分调研人工智能在同行业的进展,尝试人工智能在数据泄露和Web攻击检测的应用场景,为将来人工智能技术在各公司信息安全领域的落地打下坚实基础,从而推动人工智能在保险行业安全领域的进一步应用。(来源:中国保险报)