百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 编程网 > 正文

基于人工智能的恶意软件检测方法浅析(上篇)

yuyutoo 2024-10-22 18:36 5 浏览 0 评论

作为网络攻击中最常用的工具,恶意代码已经完全产业化,通过与地下经济体系深度融合,形成了新的威胁形态,能够窃取用户的电力、计算资源,威胁用户的信息和财产安全。以勒索软件为例,采用比特币作为赎金形式,暗网作为不可追踪的支付链路,依靠AES、RSA等难于解密的强加密算法来加密用户数据,其简单、可扩张、低风险等特点使其造成的危害不断加大,如果没有有效的备份文件,一旦中招,就很难再逆转其造成的破坏。

如何有效地检测和识别恶意程序,是网络安全领域一直面临的挑战。近年来,恶意程序呈现出变种多、抗检测技术更新快的情况。根据近年来AV-TEST协会发布的调查结果,目前每天出现的新型恶意软件数量高达39万,而赛门铁克公司给出的结果更为惊人——每天恶意软件新增数量达100万种,相关安全分析处理工作面临巨大压力。


一、传统恶意软件检测与分析技术


恶意软件检测技术的发展有几十年历史,各种技术及技术组合被用来检测和分类恶意软件。根据是否执行恶意软件代码,这些技术可以被粗略分为静态分析检测技术和动态分析检测技术[1]。

(1)静态分析检测技术

静态分析不需要执行代码,一般利用被分析文件的字节特征对代码进行评判,具体特征包括文件结构信息、程序字符串常量、调用函数等,更深层次的会反汇编二进制文件以得到文件指令等信息。特征检测法属于早期主流的静态分析检测技术,具体流程如图1,很多传统反病毒产品都是采用此类技术。

图1 特征检测方法流程


特征检测方法中,特征码是可执行程序中用作标识的唯一代码片段,通常以字节序列或者指令序列的形式表示。基于特征码的检测技术,是通过对恶意代码的文本内容进行分析,提取二进制、字符串、字节序列、文件名等特征,将这些特征码存入特征库。当检测样本时,通过扫描样本的相关特征和特征库进行匹配,若有匹配的特征则判定该样本与匹配的为同一类型的恶意样本。这种方法比较简单并且检测速度较快,缺点也很明显,比如特征提取很难自动完成,而是需要该领域专家人工判断;只能检测已有恶意代码,难以应对未知威胁;特征库往往泛化能力不足,容易受到利用混淆技术产生的多态恶意程序和变形恶意程序干扰。随着网络恶意软件日益增长,特征码数据库需要频繁反复的更新,占用的存储资源将指数级增长,随着特征码数据库的不断庞大,检测效率和系统性能都会受到严重影响。

通过完整性校验的方式对程序文件进行检测的技术也属于静态检测分析技术。很多恶意代码片段会寄存在被感染的文件中,与原有程序文件相比,其属性、大小和修改日期都会发生改变,通过hash或者其他方法记录文件校验和,下次文件使用时,首先检验该文件是否与记录一致,进而识别未知的恶意代码,这种方法的缺点是对文件的改变较敏感,容易提高误报率。


(2)动态分析与检测技术

动态分析与检测技术是指在被分析程序在运行的情况下,通过监控记录运行状态和行为,从中抽取动态特征进行检测和分类的方法。

沙箱检测法是这种技术中最常见的一种,用于恶意代码检测的沙箱基本结构如图2所示。


图2沙箱基本结构


通过诱使程序在一个仿真的系统环境下运行,如果检测该程序存在可疑行为,则判定为恶意程序。具体分析将深入程序运行过程,可能会涉及内存分析、进程和系统服务分析与网络分析,需要对系统调用序列、API调用序列、注册表行为、文件行为、网络行为等进行监控,一旦发现结束反病毒软件进程、修改反病毒软件注册表、卸载其他进程主模块、反查杀行为、查找当前已存在的反病毒进程或者服务、挂全局消息钩子、将自己的文件载体拷贝到系统目录、主动向外界通讯、未经授权自动添加启动项以及启动服务、未经允许获取更高权限、修改浏览器的默认选项等可疑行为,则可能启动沙箱报警规则。

由于动态分析检测方法根据运行时行为信息对恶意软件进行分析,因此与静态分析检测方法相比,动态分析具有更好的有效性和准确率,同时无需对待分析程序进行解包和反汇编操作。相对的,动态分析也有其缺点和不足,例如对待分析程序缺乏全局认识,通常仅关注程序运行时的小部分行为,依赖对程序行为的跟踪技术,一般需要一定的跟踪时长才能奏效,消耗计算资源较大。


二、新一代恶意软件检测技术


早期恶意软件是为了某种简单的恶意目的而编写,更容易被检测到,这种恶意软件可以定义为传统恶意软件。随着与地下经济体系深度融合,恶意代码可能带来巨大的经济利益,其整体隐蔽性越来越强,这种可以在内核模式下运行、比传统恶意软件更具破坏性且更难检测的恶意软件被定义为新一代恶意软件。

新一代恶意软件的特征提取和分类变得越来越难,一个恶意软件实例可能同时呈现多个类别的特征,往往很容易绕过运行在内核模式下的防火墙、防病毒程序等防护软件。一般来说,传统的恶意软件由一个进程组成,不使用复杂的技术来隐藏自己,而新一代恶意软件可能会注入多个不同的现有进程或新进程,采用特定混淆技术来进行隐藏并在系统中持久潜伏,一旦发起攻击可能更具破坏性和持久性。

为了应对越来越隐蔽的恶意代码威胁,研究人员将数据挖掘技术广泛应用于恶意软件检测过程。这是一种基于人工智能、机器学习、模式识别、统计学、数据库、可视化等技术的决策支持过程,高度自动化地分析数据,进行归纳性推理,从中挖掘出潜在的模式,为决策提供支持。特别是基于人工智能的数据挖掘算法检测恶意应用程序,已经成为一个新的研究方向,受到越来越多国内外学者的关注,其分析检测流程如图3所示。


图3 基于人工智能的数据挖掘算法检测恶意代码流程


这种方法的核心在于特征提取和学习建模(分类或聚类)[2]。其中,特征提取过程通过静态分析或动态分析方法,捕获文件样本的特征或特征序列,这些特征通常提取自二进制字符串、API调用和程序执行行为等特征集合,然后对这些特征或特征序列进行筛选,选择分类效果好的特征作为学习建模的分类输入参数。学习建模过程在特征分析的基础上,运用分类或聚类等智能算法自动化地将文件样本分类至不同的类别,根据类别判定文件是否属于恶意软件。

基于人工智能的恶意软件分析检测方法根据文件特征的获取方式、类型和分析手段的不同,可以分为4类,如图4所示[2]。


图4基于人工智能的恶意代码分析方法的主要类别


基于特征的分析方法一般是基于n-gram等算法提取的字节序列、操作码序列、函数调用序列、可执行文件的特征和字符串等特征,然后使用信息增益、文档频率、Fisher Score及层次特征选择等方法选择分类能力较强的特征,最后采用人工神经网络、贝叶斯网络、朴素贝叶斯、决策树模型、K近邻、支持向量机、随机森林、改进的决策树、改进的神经网络等实现分类。

基于行为的分析方法通过监控工具观察样本恶意软件行为,抓取其典型行为生成行为特征,生成API调用、系统调用、运行指令、控制流图等特征模式库,后期检测将采集软件的运行行为特征与库中的运行模式进行匹配,以判断是否属于恶意软件。其中从行为中提取特征将使用n-gram、n-tuple、bagging、知识图谱等数据挖掘技术,Hellinger距离、余弦距离、卡方等距离算法常用于计算特征之间的相似性,特征分类一般使用机器学习方法。

启发式检测方法是一种发现分析、学习和解决问题的方法,是基于规则估计或有根据的猜测来找到特定问题的解决方案。启发式这个词源于古希腊词“为了发现”。启发式检测技术一般特指静态启发式检测技术,通过对文件的API调用、操作码(Opcode)、控制流图、动态链接库等特征进行分析,在此基础上反汇编病毒程序和可疑程序,进行基于程序的指令级代码分析,模拟跟踪代码执行的流程,与已知恶意软件活动的代码进行比较进行判别。


软件模型检测是用来在程序执行过程中证明性质正确性的算法。它源于逻辑和定理证明,这两者都给出了基础问题形式化的基本概念,以及提供了分析逻辑问题的算法流程。模型检测最初是为了验证系统的正确性而开发的,也可被用来检测恶意软件。在这种检测方法中,恶意软件行为一般通过线性时序逻辑(LTL)、符号化模型检测(CTL)、计算树逻辑语言(CTPL)、控制流图等形式显示特定的特征。程序行为是通过查看一个或多个系统调用的流关系来创建的,并通过使用诸如隐藏、传播和注入等属性来定义行为,通过比较这些行为,可以确定该程序是恶意软件还是良性的。

此外,还有通过关联规则挖掘及序列模式挖掘等方法实现分类的方法,都是现阶段研究的热点。


参考文献:

[1]毛蔚轩,蔡忠闽,童力.一种基于主动学习的恶意代码检测方法.软件学报,2017,28(2):384-397 [doi: 10.13328/j.cnki.jos.005061].

[2] ?mer Aslan,Refik Samet, A Comprehensive Review on Malware Detection Approaches, 2020.01, IEEEAccess ( Volume: 8 ), P 6249 – 6271[DOI: 10.1109/ACCESS.2019.2963724].


冯静 李玲/ 中孚信息(北京)研究院

相关推荐

建筑福利-pdf转dwg格式转换器,再也不用描图-极客青年

作为一名经常熬夜画图的建筑狗或者cad用户,你体验过pdf图纸描图到cad吗?前几天一个老同学找我,说他的毕业设计需要我帮忙,发给我一份pdf图纸文件,问我怎么把pdf图纸转换成dwg格式。机智的我灵...

想学 HTML,不知从何入手?看完这篇文章你就知道了

很多人都说HTML是一门很简单的语言,看看书,看看视频就能读懂。但是,如果你完全没有接触过,就想通过看一遍教程,背背标签,想要完全了解HTML,真的有点太天真了。HTML中文...

「前端」HTML之结构

今天继续为大家分享前端的知识,如果对前端比较感兴趣的小伙伴,可以关注我,我会更大家继续分享更多与前端相关的内容,当然如果内容中又不当的或者文字错误的,欢迎大家在评论区留言,我会及时修改纠正。1.初识H...

手把手教你使用Python网络爬虫下载一本小说(附源码)

大家好,我是Python进阶者。前言前几天【磐奚鸟】大佬在群里分享了一个抓取小说的代码,感觉还是蛮不错的,这里分享给大家学习。...

用于处理pdf文件格式的转换器

在上传过程中如果单个文件太大则容易中断,而且文件太大的话对与存储也有些弊端。那么我们应该想到将文件进行压缩(注意这里压缩指的是不改变文件格式的压缩,而不是用变成压缩文件。这里就将以下用专门的软件压缩P...

乐书:在线 Kindle 电子书制作和转换工具

之前Kindle伴侣曾推荐过可以在Windows和Mac系统平台上运行的kindle电子书制作软件Sigil(教程),用它可以制作出高质量的的ePub格式电子书,当然最后还需要通...

付费文档怎么下载?教你5种方法,任意下载全网资源

网上查资料的时候,经常遇到需要注册登录或者付费的才能复制或者是下载,遇到这种情况大多数人都会选择重新查。...

捡来的知识!3种方法随便复制网页内容,白嫖真香呀

网上的资源真的多,所以许多人常常会从网上找资料。我们看到感兴趣的内容,第一时间可能会想要收入囊中。比如说截个图啊,或者挑选有意思的句子复制粘贴,记录下来。可是,有些时候,却会遇到这样的情况:1、内容不...

AI的使用,生成HTML网页。

利用deepseek,豆包,kimi以及通义千问,写入相同的需求。【写一个网页,实现抽奖功能,点击“开始”,按键显示“停止”,姓名开始显示在屏幕上,人员包括:“张三”,“里斯”,“Bool”,“流水废...

pdf转换成jpg转换器 4.1 官方正式版

pdf转换成jpg工具软件简介pdf转换成jpg转换器是一款界面简洁,操作方便的pdf转换成jpg转换器。pdf转换成jpg转换器可以将PDF文档转换为JPG,BMP,GIF,PNG,TIF图片文件。...

办公必备的office转换成pdf转换器怎么用?

2016-02-2415:53:37南方报道网评论(我要点评)字体刚从校园走出社会,对于快节奏的办公环境,难免会觉得有些吃力。在起步阶段力求将手头上的事情按时完工不出错,但是渐渐的你会发现,别人只...

为什么PDF转Word大多要收费?

PDF转Word大多都要收费?并非主要是因为技术上的难度,而是基于多方面的商业和版权考虑的,下面给大家浅分析下原因:...

如何用python生成简单的html report报告

前提:用python写了一个简单的log分析,主要也就是查询一些key,value出来,后面也可以根据需求增加。查询出来后,为了好看,搞个html表格来显示。需要的组件:jinja2flask...

学用系列|如何搞定word批量替换修改和格式转换?这里一站搞定

想必不少朋友都会碰到批量修改word文档内容、压缩文档图片、文件格式转换等重复性文档处理工作的需要,今天胖胖老师就推荐给大家一个免费工具XCLWinKits,一站搞定你所有的需要。什么是XCLWinK...

这款PDF文档转换神器,能帮你解决PDF使用中的许多难点

不管是平时的学习还是工作,相信许多朋友都经常接触PDF文件。可以说,PDF文件在我们的日常办公学习过程中的重要性和Word文档一样重要。在之前的更新中,小编介绍了几款非常不错的PDF文档格式转换软件,...

取消回复欢迎 发表评论: