基于数据挖掘的分布式入侵检测系统体系结构研究

(整期优先)网络出版时间:2019-07-17
/ 2

基于数据挖掘的分布式入侵检测系统体系结构研究

周洋郑东亚陈明强

国网宁波供电公司、宁波天灵信息科技有限公司浙江省宁波市315000

摘要:入侵检测系统作为防火墙的补充,分为基于主机的入侵检测系统(HIDS)和基于网络的入侵检测系统(NIDS),至今被广泛的应用在我们的计算机上。但是传统的入侵检测系统存在自适应差、误报漏报率高、响应不及时等缺陷。近年来,“数据挖掘(Datamining)”出现在人们面前,它通过特殊的算法从海量的数据中搜寻有用的的信息,这些有用的信息可以用于预测发展趋势、关联不同事物、决策的支持等等。本文对基于数据挖掘的分布式入侵检测系统体系结构进行了研究分析。

关键词:数据挖掘;入侵检测;分类算法;模型

1前言

为了有效维护网络的稳定性和安全性,入侵检测系统(IDS)已成为连接在In-ternet上的网络安全基础设施的重要部分。IDS有助于对网络入侵者进行检测、识别和跟踪,特别是基于网络的入侵检测系统(NIDS)可以分析进入网络并受到保护的网络流量,以便对攻击进行检测和进一步分类。目前,网络入侵检测方法主要可分为误用检测和异常检测。

2入侵检测

2.1入侵检测的概念

网络入侵检测(IntrusionDetection)是从计算机网络在中的关键点采集信息,结合一定的安全策略进行检测,根据检测结果判断是否有入侵行为或入侵企图,进而做出响应,提供主动保护。入侵检测可以阻止入侵行为,降低甚至避免入侵造成的危害。

2.2入侵检测技术

入侵检测的概念最早在1980年由JamesP.Anderson在《计算机安全威胁监控与监视》报告中提出。经过三十多年的发展,已由最初的入侵检测系统(IntrusionDetectionSystem,IDS)发展为入侵检测专家系统(IntrusionDetectionExpertSystem,IDES)。从第一个网络入侵检测系统网络安全监视器(NetworkSecurityMonitor,NSM)到现在的入侵防御系统(IntrusionPerventionSystem,IPS),人们在系统模型、算法、性能等方面取得了卓越成绩。入侵检测系统可以分为异常入侵检测(AnomalyDetection)和误用入侵检测(MisuseDetection)。异常检测指根据正常的网络访问行为建立特征模型,将用户当前行为与特征模型对比,如果差别超过预定阀值,则认为该行为异常。它最大的优点是能够检测到未知的入侵行为,缺点是正常行为有时会改变,正常行为和入侵行为之间的界限很难明确区分,导致较高的误报率。比如,登录时,系统会统计规定时间范围内的登录失败次数,如果超过阀值,会发出警报,必然导致误报率增加。误用检测建立的是已知攻击行为的特征库,通过抓取网络上的数据包与特征库匹配确认入侵事件,该模型具有较高的检测率,但缺点是不能识别新的入侵行为,若要识别新的入侵行为,必须定期手动或自动更新特征库。Snort就是最著名的一种基于特征匹配的IDS。无论采用哪种方式,误报率、漏报率和检测率都是用来评价入侵检测系统性能的标准。为了提高入侵检测系统的性能,降低误报率,提高检测率,国内外学者做了大量研究,许多智能化算法被应用到入侵检测领域,形成新型入侵检测技术,主要包括贝叶斯分类器、人工免疫原理、支持向量机等。比如,Mexico大学的Forrest研究,提出将免疫学原理应用到入侵检测,形成基于人工免疫系统的的检测技术;WenkeLee提出了一种使用数据挖掘技术进行入侵检测的系统框架。

3基于数据挖掘的网络入侵检测系统

随着科技的发展,网络已经渗透到生活的各个方面,而另一方面,大规模的网络入侵事件的发生,以至于网络安全已经成为焦点所在,而入侵检测系统就是其中的一个热门技术。传统的入侵检测系统只能检测被发现的,并存在于规则库里的,而对未知的安全隐患的检测极其低下。规则库的更行也是通过网络与信息安全员的人工操作,不仅费时费力,造价昂贵,而且效率低下,更新缓慢。随着黑客的能力的变强,传统的系统已经不够用了,需要提高其安全性能。本章通过对以上内容的归纳总结,阐明数据挖掘的能为我们干什么事情,阐明网络入侵检测少些什么。并找出两者的交织区域。建立一个基于数据挖掘的网络入侵检测系统的模型,可以解析未知信息,并自动升级库。

3.1结合过程

将两者结合主要的思想有连两个。一是通过分析,挖掘出网络入侵存在的一些未知的知识,如入侵行为的某些属性通过计算得出的值存在某些特殊性、入侵行为和某些数据有联系等等,直接识别不安全信息。另一个是通过分析,将用户安全的信息存入库,识别安全行为,间接识别非安全行为。本文构建的模型在这两个方向上都能使用。在建立模型前,需要先确定数据挖掘和网络入侵检测系统的交汇点。数据挖掘技术通过对大量数据的分析和处理,最后得出某些结果,将这些结果处理成某些直观的表现方式,将其存入数据库;而网络入侵检测系统的重点在于规则库的内容,通过对比规则库确定当前数据的安全性。所以我们确定,两者的交汇点在于规则库,即将挖掘得出的结果存入库中。使用跨行业数据挖掘的标准过程进行数据挖掘建模步骤:第一步业务理解:我们首先要明白我们需要进行分析的数据是什么?我们需要分析的是网络数据。将带有隐患的网络信息分类,并且对库自动更新。第二步数据理解:对于本文的数据来源于捕获的网络数据包,我们可以通过设置网卡为“混杂模式(PromiscuousMode)”,这个模式使我们收集到和我们同一网段里的全部信息,也可以从网上下载数据包集。第三步数据预处理:信息处理则是将数据包的包头信息提取出来作为属性,用于之后的数据挖掘。第四步建立模型:系统的安全信息的数量比有隐患的信息数量是多得多的,如果收集系统的安全信息,这是一个工作量非常庞大的工作。相对来说,误用检测需要收集的数据只是有入侵嫌疑的数据,这个数据量的少了很多,故本文选用误用检测。

3.2基于数据挖掘的网络入侵检测模型

在第一次运行前,左边模块要先运行,需要先对库做一个录入数据操作。我们可以从同一网段收集信息,但此办法的信息可能存在类型上比较单一、数据量不够等问题导致收集到的数据不足够支持接下来的数据挖掘运算,所以我们可以考虑从网络上下载前人已经获取好的较为完整的数据集作为我们的原始审计数据。当需要的数据准备好了之后,下一步进行预处理操作,在这里我们应该将收集的数据包进行获取其包头的信息,这些数据将交给分类器进行分类。但是这些处理好的数据并不是全都能用于数据挖掘的算法,甚至会影响结果,所以一般情况下需要对预处理完的数据进行筛选,经过多次的评价反馈,选出符合要求的特征信息,再将其交给分类器。分类器中的算法可以有很多种,如聚类、分类、关联等,具体的某些算法在第五章进行叙述。分类器第一次运算得出规则作为初始规则存入规则库,并向入侵检测模块的检测引擎提供规则进行对比检测。在分类器不断的对未知数据运算的时候,不断的调整和更新规则库,使规则库越来越全面。规则库是入侵检测系统的核心,解决了规则库的更新问题,也就解决的传统入侵检测系统自适应性差,误报漏报率高(我们如果将系统正常运行的情况作为规则,这叫异常检测,这样的漏报率低,但是误报率高;如果我们将具有安全隐患的情况作为规则,则相反,这也叫做误用检测)的问题。

4结束语

构建的基于数据挖掘的网络如入侵检测系统模型,是针对传统入侵检测系统无法自动更新规则库,对未知的情况无能为力,以至于传统入侵监测系统存在自适应性低,误报漏报率高等缺陷,结合了数据挖掘的强大能力,实现一种机器具有自我学习的能力,可以自主分析未知行为的安全性,并自动更新规则库,这就解决了问题。

参考文献:

[1]杨义先,李丽香,彭海朋,等.群体智能算法及其在信息安全中的应用探索[J].信息安全学报,2015,1(1):39-49.

[2]魏宇欣,武穆清.智能网格入侵检测系统[J].软件学报,2006,17(11):2384-2394.

[3]魏宇欣.网络入侵检测系统关键技术研究[D].北京:北京邮电大学,2008:117.