Sep
09
2007
这几天看了点存储系统方面的文章,知道了一些几十,甚至上百TB级的系统,恐怖啊。
存储系统不是越大越精良越好,因为面对的应用不同,对存储系统的要求也会不同。一个基本要求是,在够用的情况下,尽可能的降低成本。
我们对存储系统的需求:
1.抽象(Abstract),可存储多种格式数据
2.可扩展(Scalable),容易扩展,以适应更大规模数据
3.可靠(Stable),长时间不间断服务
4.随机存取(Random Access)快速随机访问
5.海量存储(Large Size),TB级的数据
6.可记录,可监控,可恢复(Log,Monitor,Recovery)
7.垃圾空间可回收(Garbage Colection)
8.具有一定的容错性(Error Tollerance)
9.接口简单(Easy User Interface)
额外需求,低成本
Sep
09
2007
在digg类的服务中,如何能让digg出的内容好看起来,或者说,让digg出的内容更符合读者自己的口味?方法只有一个,参与到digg的过程中去。
如果有读者抱怨内容不好看了,那首先要检讨自己是否参与到了投票过程中去,因为上榜的内容是由投票者决定的,反应了投票者的口味和喜好。这样的 内容会吸引相同口味的读者,并吸引部分人参与到投票中来。这是一个正反馈的过程,同一种口味的内容被放大,使整个投票出的内容单一化,失去了对更多人的吸 引力。这一过程通常也伴随着作弊的产生。
所以,digg内容的好快关键在用户参与的多少。在这种公共类的服务中,用户总是倾向于直接享用已有的成果而不贡献自己的力量。而digg.com却成功吸引了大量的用户参与到投票过程中来,这是为什么呢?抓虾 (zhuaxia.com)上的一篇文章对此进行了详细的分析,相关的网址如下
http://www.zhuaxia.com/item/429224469
http://www.20ju.com/content/V9668.htm
http://www.mywowo.com/news.asp?Gmail_ID=589
该文从投票成本,个人收益,潜在收益等几个方面分析了为什么digg.com能吸引众多的用户。digg.com可能很多人都不用不熟悉,但是可以参照国内最成功的digg–“抓虾热文”来说,上文中关于digg成功的特性,抓虾热文几乎都具备:
1)投票成本低,无论是学习成本还是操作成本。投票(推荐、收藏)在抓虾中只需要鼠标点击一下即可。
2)收藏结合web2.0的标签功能。在抓虾中,收藏也相当与对一篇文章投票,收藏的同时可以对文章打上标签,便于对个人收藏的整理。
3)投票和博客浏览无缝对接。抓虾同时是国内最好的RSS阅读器,在阅读各种信息的同时可以投票、收藏。
4)拥有社交功能。抓虾的社交功能刚刚起步,但可以看出抓虾做社区化阅读的决心,近期的产品(以抓虾的个人页面为代表)改进都在围绕其进行。
5)具备了普通媒体的效用。抓虾热文的品牌已经很响了,浏览量也很大,很多不用抓虾做阅读器的人也经常去看抓虾热文。抓虾热文可以提供优质的内容,并为内容网站带去可观的流量。
6)投票过程和个人利益的结合。这一点在抓虾中没有明显的体现,也是抓虾应该加强的一点。将个人利益和投票过程结合,能够更多的鼓励用户参与到投票过程中。
7)公共收益。抓虾热文作为一个信息的平台,提供最新、最前沿、最流行、最高质量的资讯,方便更多的人获得信息。
负面因素:最主要的负面因素是spam,这是各种信息提供平台发展到一定程度都会遇到的问题,随着影响力的增大,这些平台会逐渐成为各种 spam的目标。不过很高兴抓虾热文改版后对spam的控制的加强,热文中已经看不到明显的spam了。anti-spam还是要作为一个重要工作常抓不 懈。
对服务提供者来说,想让digg的内容更好看,根本的方法还是吸引用户的参与。
对用户来说,想看到更好的内容,根本的方法是参与到digg中去。开始投票、收藏、推荐吧。

Sep
09
2007
anti-spam的思路可以分成两种
一:
增加spam的成本
二:
识别spam,清除掉
增加spam的成本,这种方法很常见
例如,对于digg类的应用来说因为
参与的人数众多,spam的成本就比较高
像网站注册或者发表评论和留言时输入验证码也是提高spam成本的方法
方法二识别spam就有点难了
可以观察一些特征,并设计算法来识别
高级一点的算法如机器学习或者数据挖掘等
但是如果spam的特征不明显就很难识别了
这就有一个识别率的问题
这里涉及到两点
一是识别spam的正确率,即有多少比例的spam被识别出来了
二是识别错误率,即有多少非spam被识别成spam了
相应的就有两种策略
是宁可错杀一千不可漏网一个呢
还是宁可漏网一千不可错杀一个呢
需要注意的还有
增加spam成本可能同时会增加正常用户的使用成本-例如使用识别码
其它问题
人手工参与到anti-spam的过程是否合适
我认为是合适的
却有人批评我们人工干预一些排名的确定
这种批评是没有道理的
那些标榜自己是完全机器生成而没有人工干预结果的是放屁!
因为
1.不可能没有人工干预,人工干预在很多时候,成本低,见效快。
2.算法是由人设计的,所以说机器生成的,也就是人生成的。如果不想让谁出现只要设计算法屏蔽就可以了,这样算不算没有人工干预而完全由机器生成呢。效果是一样的。
3.如果真的没有人工干预,那你打开各个搜索引擎的热门关键词排行榜,前十名一定有一半是色情词汇。