| 当前位置:主页>理科农业论文>统计学论文>列表 |
朴素贝叶斯分类在入侵检测中的应用 |
| 来源:非常论文网 www.verylw.com |
|
摘 要 贝叶斯分类能高效地处理大型数据,本文使用核密度估计的朴素贝叶斯分类来进行入侵检测。由于入侵检测审计数据属性多为连续变量,所以在贝叶斯分类算法中使用核密度估计,有助于提高分类的精度,另引入对称不确定方法有效地删除不相关的检测属性,进一步提高分类效率。
关键字 贝叶斯;核密度;入侵检测;分类
1 前言 在入侵检测系统中,为了提高系统的性能,包括降低误报率和漏报率,缩短反应时间等,学者们引入了许多方法,如专家系统、神经网络、遗传算法和数据挖掘中的聚类,分类等各种算法。例如:Cooper & Herkovits提出的一种基于贪心算法的贝叶斯信念网络,而Provan & Singh Provan,G.M & Singh M和其他学者报告了这种方法的优点。贝叶斯网络说明联合条件概率分布,为机器学习提供一种因果关系的图形,能有效的处理某些问题,如诊断:贝叶斯网络能正确的处理不确定和有噪声的问题,这类问题在任何检测任务中都很重要。
然而,在分类算法的比较研究发现,一种称作朴素贝叶斯分类的简单贝叶斯算法给人印象更为深刻。尽管朴素贝叶斯的分类器有个很简单的假定,但从现实数据中的实验反复地表明它可以与决定树和神经网络分类算法相媲美[1]。
在本文中,我们研究朴素贝叶斯分类算法,用来检测入侵审计数据,旨在开发一种更有效的,检验更加准确的算法。
2 贝叶斯分类器 贝叶斯分类是统计学分类方法。它们可以预测类成员关系的可能性,如给定样本属于一个特定类的概率。
朴素贝叶斯分类[2]假定了一个属性值对给定类的影响独立于其它属性的值,这一假定称作类条件独立。
设定数据样本用一个 n 维特征向量X={x1,x2,,xn}表示,分别描述对n 个属性A1,A2,,An样本的 n 个度量。假定有m个类 C1,C2,,Cm 。给定一个未知的数据样本 X(即没有类标号),朴素贝叶斯分类分类法将预测 X 属于具有最高后验概率(条件 X 下)的类,当且仅当P(Ci | X)> P(Cj | X),1≤j≤m,j≠i 这样,最大化P(Ci | X)。其中P(Ci | X)最大类Ci 称为最大后验假定,其原理为贝叶斯定理:
公式(1) 由于P(X) 对于所有类为常数,只需要P(X | Ci)P(Ci)最大即可。并据此对P(Ci| X)最大化。否则,最大化P(X | Ci)P(Ci)。如果给定具有许多属性的数据集,计算P(X | Ci)P(Ci)的开销可能非常大。为降低计算P(X| Ci )的开销,可以做类条件独立的朴素假定。给定样本的类标号,假定属性值相互条件独立,即在属性间,不存在依赖关系,这样,
公式(2) 概率
,可以由训练样本估值: (1) 如果Ak是分类属性,则P(xk|Ci)=sik/si其中sik是Ak上具有值xk的类Ci的训练样本数,而si是Ci中的训练样本数。
(2) 如果Ak是连续值属性,则通常假定该属性服从高斯分布。因而
公式(3) 其中,给定类Ci的训练样本属性Ak的值,
是属性Ak的高斯密度函数,而 分别为平均值和标准差。 朴素贝叶斯分类算法(以下称为NBC)具有最小的出错率。然而,实践中并非如此,这是由于对其应用假定(如类条件独立性)的不确定性,以及缺乏可用的概率数据造成的。主要表现为:
①不同的检测属性之间可能存在依赖关系,如protocol_type,src_bytes和dst_bytes三种属性之间总会存在一定的联系;
②当连续值属性分布是多态时,可能产生很明显的问题。在这种情况下,考虑分类问题涉及更加广泛,或者我们在做数据分析时应该考虑另一种数据分析。
后一种方法我们将在以下章节详细讨论。
3 朴素贝叶斯的改进:核密度估计 核密度估计是一种普便的朴素贝叶斯方法,主要解决由每个连续值属性设为高斯分布所产生的问题,正如上一节所提到的。在[3]文中,作者认为连续属性值更多是以核密度估计而不是高斯估计。
朴素贝叶斯核密度估计分类算法(以下称K-NBC)十分类似如NBC,除了在计算连续属性的概率 时:NBC是使用高斯密度函数 来评估该属性,而K-NBC正如它的名字所说得一样,使用高斯核密度函数来评估属性。它的标准核密度公式为 |
|
共5页: 上一页 1 [2] [3] [4] [5] 下一页 上一篇:数学学习方法及其指导 下一篇:纳米科学和技术的二次浪潮 |
最新文档
推荐文档
热门文档
最新专题
公式(1)
公式(2)
,可以由训练样本估值:
公式(3)
是属性Ak的高斯密度函数,而 分别为平均值和标准差。
时:NBC是使用高斯密度函数