中国科学院邮件系统电子期刊第十期

小知识——战胜垃圾邮件的七种武器

　　当前，Email已经成为人们生活中进行信息交流的常用手段，但是，在我们使用电子邮箱接收正常邮件的同时，还会受到许多垃圾邮件的滋扰，以下，我们将介绍一些防止垃圾邮件的有力措施，仅供参考。

　　一、传输层拦截

　　由于目前邮件协议比较“简单”，所以电子邮件地址很容易伪造。但我们可以通过用户认证的方式，禁止从某一个邮件服务器发出的伪造邮件。但是这种方法不能避免已经通过认证的用户向外发送垃圾邮件。邮件服务器还可以提供Open Relay服务：无条件转发属于其他域的邮件。所以，关闭互联网上一切邮件服务器Open Relay的功能，对减少垃圾邮件的传播非常重要。

　　当一台开启了Open Relay的邮件服务器被垃圾邮件发送者发现时，它也会被加入一些公开的RBL（实时黑名单）当中，邮件服务器接受邮件时，可以检查这些邮件的发信地址和域是否在这些RBL当中。但是RBL有时也会包含一些合法的邮件服务器。因此，使用RBL的同时把常用的一些合法的邮件服务器加入到白名单当中。

　　二、指纹分析

　　从理论上来说，如果一个收件人收到垃圾邮件之后，提取其中的指纹特征并分享给其他收件人，那么其他收件人就可以根据这些数字指纹拒绝接收具有同样指纹特征的邮件。不幸的是，这些大批量发送的邮件也会包含细微的变化。例如，垃圾邮件一般都包括一个“退订（Unsubscribe）”链接。另外，收集指纹特征是一项极其耗费资源的工作，尤其是在邮件流量巨大的企业环境当中。

　　经过认真细致的分析，找到这些邮件当中共同的特征点，就可以把这些指纹特征收集整理成一个规模化的垃圾邮件特征库。

　　三、语义分析

　　垃圾邮件制造者的另一种办法就是使用以往常用的词汇。语义分析会根据这些词语出现的位置和环境分配一个权重。一旦整封邮件的内容分析完毕，这些权重将会相加得到一个最终的分值，如果这个分值超过某一个预设的阈值，这封邮件将被判断为垃圾邮件。

　　四、人工智能

　　神经网络是人工智能技术在软件中的实现，用来识别变化模式匹配。一个神经网络存在输入、输出和两者之间的连接。输入/输出节点代表那些需要分析的源数据。输入是邮件当中的所有词语，输出是电子邮件的分类。神经网络的准确性依赖于它是如何被“训练”的。在“训练”过程中，会有大量的输入/输出被送入网络，网络通过持续调整节点之间的连接权重来增加准确性。

　　五、统计分析

　　统计分析是通过分析大量已经正确分类的垃圾邮件和正常邮件，统计其中词语出现的频率从而生成一个关于可能性的权重数据库。通过分析累加一封邮件中出现的所有的词语的权重值，可以得到这封邮件的权重值，从而判断这封邮件是垃圾邮件的可能性有多大。尽管统计数据库中可能不会包含所有的词语，但是经过精确的“训练”，贝叶斯算法可以得到相当的准确率。

　　六、启发式分析

　　启发式分析是对邮件进行一系列的测试分析，然后将这些测试分析的结果综合和一个阈值比较，超过这个阈值就判断为垃圾邮件。启发式分析可以包括上面提到的所有方法，也会检查邮件的内容和属性。垃圾邮件也是不断变化的，需要更多的分析判断方法结合起来。因此执行多个分析过程对提高准确率非常重要。整个启发式分析的准确性依赖于组成它的多个分析过程的权重打分有效性和阈值机制。

　　七、中文的特殊性

　　由于中文的特殊性，使得邮件是由多个汉字而不是“词语+空格”组成的，在中文邮件的处理上，需要对这些方法做一些改革。首先，需要一个非常高效的机制对词语进行分隔和识别；其次，还需要有一个能够理解中文的辞典；同时，汉字还存在“简体”和“繁体”，存在GB2312、GB18030等多种编码方式。最好的办法就是把这些编码统一转换到一个统一的格式，然后进行统一处理。

五一长假即将来临，为保证节日期间院邮件系统能够一如既往地为您提供优质的服务，我们安排了客户服务值班人员。无论何时，无论您在邮件系统的使用过程中遇到何种问题，都可拨打24小时客户服务热线：（010）-58812000；您也可以将问题发送到技术支持专用邮箱：support@cstnet.cn 。我们会及时为您排忧解难，保证您的邮件畅通无阻。

战胜垃圾邮件的七种武器

当前，Email已经成为人们生活中进行信息交流的常用手段，但是，在我们使用电子邮箱接收正常邮件的同时，还会受到许多垃圾邮件的滋扰，以下，我们将介绍一些防止垃圾邮件的有力措施，仅供参考。

• 传输层拦截

• 指纹分析

• 语义分析

• 人工智能

• 统计分析

• 启发式分析

• 中文的特殊性

意见反馈： support@cstnet.cn