Sep 09 2007
关于 anti-spam
anti-spam的思路可以分成两种
一:
增加spam的成本
二:
识别spam,清除掉
增加spam的成本,这种方法很常见
例如,对于digg类的应用来说因为
参与的人数众多,spam的成本就比较高
像网站注册或者发表评论和留言时输入验证码也是提高spam成本的方法
方法二识别spam就有点难了
可以观察一些特征,并设计算法来识别
高级一点的算法如机器学习或者数据挖掘等
但是如果spam的特征不明显就很难识别了
这就有一个识别率的问题
这里涉及到两点
一是识别spam的正确率,即有多少比例的spam被识别出来了
二是识别错误率,即有多少非spam被识别成spam了
相应的就有两种策略
是宁可错杀一千不可漏网一个呢
还是宁可漏网一千不可错杀一个呢
需要注意的还有
增加spam成本可能同时会增加正常用户的使用成本-例如使用识别码
其它问题
人手工参与到anti-spam的过程是否合适
我认为是合适的
却有人批评我们人工干预一些排名的确定
这种批评是没有道理的
那些标榜自己是完全机器生成而没有人工干预结果的是放屁!
因为
1.不可能没有人工干预,人工干预在很多时候,成本低,见效快。
2.算法是由人设计的,所以说机器生成的,也就是人生成的。如果不想让谁出现只要设计算法屏蔽就可以了,这样算不算没有人工干预而完全由机器生成呢。效果是一样的。
3.如果真的没有人工干预,那你打开各个搜索引擎的热门关键词排行榜,前十名一定有一半是色情词汇。





GNote.Net | 记笔记
[…] 这几天看抓虾热文,发现又出现一个作弊的小高潮,出现了几篇明显的作弊文章。 作为一个digg类网站,反作弊(anti-spam)应该是一个常抓不懈的工作,否则将出现破窗效应,越是放任作弊,作弊的就越多。所以对作弊行为,应该发现一起,严肃处理一起,决不能手软。即使是优质频道,也可以处理几个,达到杀一儆百的效果。 具体的anti-spam的手段就多样化了 […]