Sep 09 2007

关于 anti-spam

Published by gnote at 7:55 上午 under 想法

anti-spam的思路可以分成两种

一:

增加spam的成本

二:

识别spam,清除掉

增加spam的成本,这种方法很常见

例如,对于digg类的应用来说因为

参与的人数众多,spam的成本就比较高

像网站注册或者发表评论和留言时输入验证码也是提高spam成本的方法

方法二识别spam就有点难了

可以观察一些特征,并设计算法来识别

高级一点的算法如机器学习或者数据挖掘等

但是如果spam的特征不明显就很难识别了

这就有一个识别率的问题

这里涉及到两点

一是识别spam的正确率,即有多少比例的spam被识别出来了

二是识别错误率,即有多少非spam被识别成spam了

相应的就有两种策略

是宁可错杀一千不可漏网一个呢

还是宁可漏网一千不可错杀一个呢

需要注意的还有

增加spam成本可能同时会增加正常用户的使用成本-例如使用识别码

其它问题

人手工参与到anti-spam的过程是否合适

我认为是合适的

却有人批评我们人工干预一些排名的确定

这种批评是没有道理的

那些标榜自己是完全机器生成而没有人工干预结果的是放屁!

因为

1.不可能没有人工干预,人工干预在很多时候,成本低,见效快。
2.算法是由人设计的,所以说机器生成的,也就是人生成的。如果不想让谁出现只要设计算法屏蔽就可以了,这样算不算没有人工干预而完全由机器生成呢。效果是一样的。
3.如果真的没有人工干预,那你打开各个搜索引擎的热门关键词排行榜,前十名一定有一半是色情词汇。

随机文章 | Random Posts
  • 2008奥运会火炬接力路线图
  • 关于
  • 阅读需要社会化-Google Reader中文版会对抓虾造成冲击吗?
  • digg类网站要严厉打击作弊
  • 测试一下,打算搬几篇文章过来
  • 上一篇:« digg排名算法

    下一篇:如何让digg出的内容更好看 »

    One Response to “关于 anti-spam”

    1. […] 这几天看抓虾热文,发现又出现一个作弊的小高潮,出现了几篇明显的作弊文章。 作为一个digg类网站,反作弊(anti-spam)应该是一个常抓不懈的工作,否则将出现破窗效应,越是放任作弊,作弊的就越多。所以对作弊行为,应该发现一起,严肃处理一起,决不能手软。即使是优质频道,也可以处理几个,达到杀一儆百的效果。 具体的anti-spam的手段就多样化了 […]

    Trackback URI | Comments RSS

    Leave a Reply