一种P2P流量识别方法的

更新时间:2024-03-04 作者:用户投稿原创标记本站原创 点赞:4509 浏览:15608

摘 要 :本文先介绍了目前主流的P2P 流量识别方法及其优缺点,通过实际捕包分析了BT协议的交互过程及特点.分析选取流量特征中的平均包长度、流持续时间、上下行流量包数比、目的端口等4个特征,结合支持向量机方法对网络流量的进行识别.实验结果显示,该方法能够有效地检测网络流量中的P2P 流量.

关 键 词 :P2P;流量识别;流行为特征;支持向量机

中图分类号:TP393.0 文献标识码:A 文章编号:1007-9599(2013)01-0086-02

随着P2P网络技术[1]的迅猛发展,P2P流量已经逐渐成为整个互联网流量的重要组成部分.中国工程院副院长邬贺铨的报告指出,中国的P2P传输的数据流,约为欧美国家的数倍.P2P应用所带来的P2P软件带宽极大地挤占互联网其它应用、著作权侵犯等问题的负面影响也慢慢显露出来.网络的安全性、可管理性及传统应用的可用性等都受到了挑战,这就需要对P2P流量的识别提出有效的方案.端口识别技术在早期P2P应用采用固定端口时应用广泛,但随着随机端口应用的增多逐渐失去了效果.深层数据包识别技术[2]通过协议分析的方法对数据包检测解析来提取P2P应用的特征关键字串.但随着各种加密技术和隐藏技术的广泛使用使得基于DPI的检测方法不能满足识别技术的需要.因此,新兴的基于流行为特征和机器学习的方法成为研究热点.徐鹏等在摩尔数据集上使用支持向量机的机器学习方法对P2P 类别的样本进行识别,取得了不错的分类效果.因此本文通过流行为特征的分析提取,结合支持向量机为网络流量特征建立识别分类模型.

1.协议特征分析

BT网络主要由种子文件、目录怎么写作器、种子提供站点和内容发布者/下载者共5部分组成.BT协议规范把提供下载的文件虚拟分成大小为2 KB的整数次方的数据块,把每个块的索引信息和哈希验证码写入种子文件中.发布者将种子文件放在种子发布站点供下载者下载.BT协议主要包括3个部分:种子文件的格式、tracker协议和端wire协议.BT协议工作时的交互过程及特征为BT协议数据流特征分析提供了基础.常见的P2P应用中由于其传输的是大流量的文件或者视频流等数据,因此其传输的包长度与传统的HTTP等协议存在着较大的差异.一条流从开始到结束,P2P应用与非P2P应用在流持续时间上存在显著差异.P2P网络中对等节点和传统应用中的怎么写作器不同,一个对等节点同时与大量的节点相连接,每个对等节点既是资源的下载者又是资源的提供者,其上行流量和下行流量的比值基本相当,这和传统的C/S模式的传输方式存在者巨大的区别.在常见的 Web应用中,通常怎么写作器是使用固定的端口来接收客户端的连接请求进行数据的传输,而P2P协议由于为了躲避检测,其节点在请求和接收怎么写作时,使用的往往是随机端口进行数据传输.鉴于以上流特征的分析,本文分别从数据流特征中的平均包长度、流持续时间、上下行流量包数比、目的端口4个方面组成4元组作为识别P2P 流量的特征参数.


对于非线性问题,通过非线性变换转化为某个高维空间中的线性问题,在变换空间求最优分类超平面.设有非线性映射Φ:R d→H将输入空间的样本映射到高维的特征空间H中,当在特征空间H中构造最优超平面时,训练算法仅使用空间中的点积,即 而没有单独的 出现.根据泛函的有关理论,只要一种核函数 满足Mercer条件,它就对应某一变换空间中的内积,因此在最优超平面中采用适当的内积函数 就可以实现某一非线性变换后的线性分类,而计算复杂度却没有增加.Mercer定理将核函数定义为特征空间的内积运算形式,本文选取径向基函数作为核函数对训练样本进行建模.