自从互联网普及以来,电子邮件逐渐成为人们生活中便捷的通信手段之一。然而,随之产生的垃圾邮件象瘟疫一样蔓延,污染网络环境,占用大量传输、存储和运算资源,影响了网络的正常运行。业内人士分析:一旦垃圾邮件占到互联网总数据流量的三分之一以上,将会造成巨大的存储需求,甚至对信息安全系统的有效性构成威胁。
对垃圾邮件的定义至今还没有一个比较明确的描述,然而它们的诸多表征已经得到了业界人士的广泛的认可,例如:垃圾邮件通常是未经收件人主动请求又无法拒收的、大量的邮件内容相似并且隐藏或伪造发件人身份、地址、标题信息等。垃圾邮件的内容形形色色,常见的包括广告、色情信息,还有病毒或蠕虫引起邮件深度扩散等诸多类型。由于垃圾邮件数量多,具有反复性、强制性、欺骗性、不健康性或传播速度快等特点,严重干扰了人们正常生活,浪费用户的时间、精力甚至造成很多额外的经济支出和信息安全隐患。因此,对反垃圾邮件技术的研究已经成为影响互联网发展的重要课题之一。
回顾反垃圾邮件技术的发展历程,可以将其分为三个阶段:
触发阶段(1993年——1997年):1994年12月,spam一词开始用于表示垃圾邮件;1995年10月,国际上开始为垃圾邮件设定专门的邮件帐户abuse@domain,用于收集、讨论垃圾邮件;同时开始利用“黑名单”(把一些已知的发送垃圾邮件IP或邮件地址列入其中,用来过滤垃圾邮件)技术实施反垃圾邮件工作。
推进阶段(1997年——1999年):1997年5月,国际上成立了CAUCE(Coalition Against Unsolicited Commercial E-mail)组织,主要从倡议立法的角度出发,力图唤醒有志者共同参与,一起抵制垃圾邮件。1998年4月,Internet协会ISOC针对垃圾邮件问题召开了专项会议,讨论有效的实施垃圾邮件过滤方式等等。在这一阶段中,许多国际组织和服务单位例如MAPS、SPANHAUS、ORBSSPAMCOP也相继成立,对垃圾邮件问题(尤其是对ISP)提出了很多建议和解决方案。尤其重要的是,1998年我国成立了第一家开展垃圾邮件与反垃圾邮件技术研究单位“中国教育与科研网紧急响应小组(CCERT)”,他们积极地与国际组织接触并建立联系,成为这一阶段我国接受和处理国际投诉的主要窗口。
发展阶段(1999年——2002年):1999年2月,RFC2502,Anti-Spam Recommendations for SMTO MTAs的正式发布标志着反垃圾邮件技术研究的蓬勃发展。许多国际知名大学和研究机构都组织人员开始了反垃圾邮件技术的研究。随着反垃圾邮件理发和建立统一标准等工作的推进,这一研究领域更是吸引了许多从事交叉学科研究的技术人员的关注。机器学习、神经网络和遗传算法等先进的研究经验都被引入到这一领域。这一阶段的研究成果成为近几年国内外开发反垃圾邮件产品的主要技术依据。
反垃圾邮件技术过滤
反垃圾邮件技术主要包括:垃圾邮件过滤技术、邮件服务器的安全管理和培植技术以及对简单邮件通信协议(SMTP)的改进研究等。
对过滤技术的应用和研究在推进和发展阶段主要集中在三个方面:
其一,利用热顶地址、IP或域名“黑白名单”进行的邮件限制或过滤,典型应用诸如:结合DNS的实时黑名单(RBL)过滤,用户自定义邮件白通道加严整的过滤方法等
其二,基于数据挖掘技术进行的邮件过滤研究,利用文本分类与统计算法进行垃圾邮件检测,比较有代表性的是贝叶斯过滤器。它是以自学习、自适应和极高的准确率占据了过滤器这个领域的主导地位。其他研究包括:基于记忆信息、基于事件特征描述信息进行数据挖掘的垃圾邮件检测方法。
其三,基于垃圾邮件的特征分析、规则提取的规则匹配过滤方法,对这种技术的应用,SpamAssassin是个中翘楚
在邮件服务器的安全管理和培植方面,主要研究问题包括:曾经广泛引起关注的Open-rely、邮件签名统计、收发邮件的主机及用户认证、病毒过滤、邮件路径验证等等。
针对垃圾邮件问题对SMTP协议进行改进和完善也是众多研究单位的关注重点。IETF与IRTF的下级部门ASRG(反垃圾邮件研究小组)支持在不放弃SMTP的情况下通过校验邮件地址控制垃圾邮件的技术方案:终端发送准许(Sender Policy Framework),指定邮寄者协议(Designated Mailers Protocol)、逆向邮件交换(Reverse Mail EXCHANGE)。随着网络结构及其应用体系的进一步发展,相信这方面研究得出的结果会成为解决垃圾邮件的有利措施。
技术发展方向
时至今日,网民及各界人士对垃圾邮件造成的问题日益关注,网络服务商和邮件运营商们纷纷提出了自己的技术方案:雅虎的“DomainKeys”,它利用公/私钥加密技术为每个电子邮件地址生成一个唯一的签名,实现对邮件发送者的身份验证;微软的“电子邮票”有偿发送邮件方案;AOL正在试验一种名为“Sender permitted From”(SPF)的新电子邮件协议,禁止通过修改域名系统(DNS)伪造电子邮件地址。反垃圾邮件技术的研发和产品的推广也成为商家继防火墙技术以及入侵检测技术之后的又一热点,各种反垃圾邮件产品基本上都对以上各阶段的研究技术进行了产品转化,也设计了一些基于SMTP连接的动态过滤规则,例如相同IP的并发连接限制以及连接频度限制等等。然而,仅仅这样做还不够,邮件过滤技术的研究还有待进一步拓宽思路。垃圾邮件的过滤技术必然由单一基于静态规则和统计分类向着基于行为模式分析的动态过滤技术相结合的方向进行转变,例如,可以考虑把网络流量的时空特性分析以及对通信连接过程中的行为模式,尤其是异常行为模式识别和分析等技术手段结合起来综合利用,开发新的研究路线。
随着业界对反垃圾邮件技术的进一步研究和普及应用,可以发展不论是垃圾邮件的特征提取、规则生成还是检测取证、判定以及布置过滤措施,研究重点都从单项、单点的技术研究转移到了对多技术体系融合、协作式的反垃圾邮件技术体系的研究。这一点从国外对SpamNET和Vipul’s Razor 的研究推广就可以判定,它们都是采用了类似于Napster结构集中式P2P网络的分布式过滤器,各对等点提交邮件特征生成中央报告(Spam Report)或分类目录(categorized catalogue),SpamAssassin也是在调用Razor 及DCC等数据库的基础上再采用人工加权或scored的方法,进行垃圾邮件识别。充分调动了各方的资源,共建、共享、共同研究、协调合作。针对我国的垃圾邮件情况,建立协作式的反垃圾邮件技术体系是非常必要的:一方面,它将成为中国反垃圾邮件公共服务管理体系的技术支撑平台,可以集成邮件信息分析、特征提取、整合取证、分发等一系列的运算;另一方面,对垃圾邮件特征的分析,尤其是对多源的信息分析、融合以及有效规则的生成需要调动大量的运算资源,采用协作的分布式结构有利于资源的结构体系,也有利于对大规模的垃圾邮件泛滥,尤其是蠕虫引起的病毒邮件扩散进行快速响应,当然,各节点间应当以可信连接或专用的安全通道进行通信,保证协调合作的可靠性、有效性及安全性。
垃圾邮件是全球性的问题,且已经成为一种社会现象,单靠反垃圾邮件技术的发展或是纯粹的技术手段是无法解决的 ,还是应当采用管理与技术相结合的方式,以先进的技术手段为基础,以完善的管理制度和法律法规为依托,对社会各主体的邮件活动进行规范,通过建立国家级的反垃圾邮件公共服务体系,完善国内的垃圾邮件举报平台,促进各运营商和邮件服务商的协调合作,再次推动反垃圾邮件技术的更新和快速发展。