Sep
10
2007
今天在抓虾(zhuaxia.com)上看到篇文章“中文博客搜索引擎大全”
作者列出的博客搜索引擎有
百度博客搜索 http://blogsearch.baidu.com/
谷歌博客搜索 http://blogsearch.google.cn/
搜狗博客搜索 http://blogsearch.sogou.com/
有道博客搜索 http://blog.yodao.com/
爱问博客搜索 http://blog.iask.com/
奇虎博客搜索 http://blog.qihoo.com/
Souyo中文博客搜索引擎 http://www.souyo.com/
feedss中文RSS搜索引擎 http://www.feedss.com/
博搜(博客网站内搜索) http://www.booso.com/
新浪博客搜索(站内搜索) http://search.blog.sina.com.cn/blog/
我比较奇怪的是里面居然没有抓虾,抓虾虽然没有宣传自己是博客搜索,但是从其首页的数据看,抓虾收录了4,804,341 个博客和新闻频道,494,730,371 篇精彩文章,这个规模是很大的,在抓虾中搜索博客也应该是没问题的,于是测试了几个词在各个搜索引擎中的索引量(2007年9月10日18点)。
搜索引擎 keso 私房菜 韩寒 河蟹
百度 18900 35800 222000 16400
谷歌 84579 235940 19074 21524
搜狗 1635929 5762111 12238364 3018033
有道 11600 66900 120000 17000
爱问 50520 286098 1361328 100326
奇虎 8559 41584 150785 11249
souyo 1450 29 5131 100
feedrss 1404 5774 31672 1527
博搜 687 3612 9507 450
抓虾 7912 2200 11042 3267
由此可以看出,百度,谷歌,搜狗,爱问的博客索引量属于第一集团;有道,奇虎,抓虾,feedrss的索引量可以算第二集团;souyo和博搜算作第三集团了。
以上所有搜索引擎都提供了多种排序方法,其中只有搜狗,抓虾,爱问,souyo提供了对博客作者的搜索。
使用抓虾搜索的好处是,可以知道一个博客的受关注程度,因为可以在抓虾中看到一个博客的订阅量和被搜索文章的推荐和收藏量,这两个值对判定文章的质量应该很有帮助。
另外,搜狗的索引量大的惊人,不知道有没有水分。
Sep
09
2007
这几天看了点存储系统方面的文章,知道了一些几十,甚至上百TB级的系统,恐怖啊。
存储系统不是越大越精良越好,因为面对的应用不同,对存储系统的要求也会不同。一个基本要求是,在够用的情况下,尽可能的降低成本。
我们对存储系统的需求:
1.抽象(Abstract),可存储多种格式数据
2.可扩展(Scalable),容易扩展,以适应更大规模数据
3.可靠(Stable),长时间不间断服务
4.随机存取(Random Access)快速随机访问
5.海量存储(Large Size),TB级的数据
6.可记录,可监控,可恢复(Log,Monitor,Recovery)
7.垃圾空间可回收(Garbage Colection)
8.具有一定的容错性(Error Tollerance)
9.接口简单(Easy User Interface)
额外需求,低成本
Sep
09
2007
在digg类的服务中,如何能让digg出的内容好看起来,或者说,让digg出的内容更符合读者自己的口味?方法只有一个,参与到digg的过程中去。
如果有读者抱怨内容不好看了,那首先要检讨自己是否参与到了投票过程中去,因为上榜的内容是由投票者决定的,反应了投票者的口味和喜好。这样的 内容会吸引相同口味的读者,并吸引部分人参与到投票中来。这是一个正反馈的过程,同一种口味的内容被放大,使整个投票出的内容单一化,失去了对更多人的吸 引力。这一过程通常也伴随着作弊的产生。
所以,digg内容的好快关键在用户参与的多少。在这种公共类的服务中,用户总是倾向于直接享用已有的成果而不贡献自己的力量。而digg.com却成功吸引了大量的用户参与到投票过程中来,这是为什么呢?抓虾 (zhuaxia.com)上的一篇文章对此进行了详细的分析,相关的网址如下
http://www.zhuaxia.com/item/429224469
http://www.20ju.com/content/V9668.htm
http://www.mywowo.com/news.asp?Gmail_ID=589
该文从投票成本,个人收益,潜在收益等几个方面分析了为什么digg.com能吸引众多的用户。digg.com可能很多人都不用不熟悉,但是可以参照国内最成功的digg–“抓虾热文”来说,上文中关于digg成功的特性,抓虾热文几乎都具备:
1)投票成本低,无论是学习成本还是操作成本。投票(推荐、收藏)在抓虾中只需要鼠标点击一下即可。
2)收藏结合web2.0的标签功能。在抓虾中,收藏也相当与对一篇文章投票,收藏的同时可以对文章打上标签,便于对个人收藏的整理。
3)投票和博客浏览无缝对接。抓虾同时是国内最好的RSS阅读器,在阅读各种信息的同时可以投票、收藏。
4)拥有社交功能。抓虾的社交功能刚刚起步,但可以看出抓虾做社区化阅读的决心,近期的产品(以抓虾的个人页面为代表)改进都在围绕其进行。
5)具备了普通媒体的效用。抓虾热文的品牌已经很响了,浏览量也很大,很多不用抓虾做阅读器的人也经常去看抓虾热文。抓虾热文可以提供优质的内容,并为内容网站带去可观的流量。
6)投票过程和个人利益的结合。这一点在抓虾中没有明显的体现,也是抓虾应该加强的一点。将个人利益和投票过程结合,能够更多的鼓励用户参与到投票过程中。
7)公共收益。抓虾热文作为一个信息的平台,提供最新、最前沿、最流行、最高质量的资讯,方便更多的人获得信息。
负面因素:最主要的负面因素是spam,这是各种信息提供平台发展到一定程度都会遇到的问题,随着影响力的增大,这些平台会逐渐成为各种 spam的目标。不过很高兴抓虾热文改版后对spam的控制的加强,热文中已经看不到明显的spam了。anti-spam还是要作为一个重要工作常抓不 懈。
对服务提供者来说,想让digg的内容更好看,根本的方法还是吸引用户的参与。
对用户来说,想看到更好的内容,根本的方法是参与到digg中去。开始投票、收藏、推荐吧。

Sep
09
2007
anti-spam的思路可以分成两种
一:
增加spam的成本
二:
识别spam,清除掉
增加spam的成本,这种方法很常见
例如,对于digg类的应用来说因为
参与的人数众多,spam的成本就比较高
像网站注册或者发表评论和留言时输入验证码也是提高spam成本的方法
方法二识别spam就有点难了
可以观察一些特征,并设计算法来识别
高级一点的算法如机器学习或者数据挖掘等
但是如果spam的特征不明显就很难识别了
这就有一个识别率的问题
这里涉及到两点
一是识别spam的正确率,即有多少比例的spam被识别出来了
二是识别错误率,即有多少非spam被识别成spam了
相应的就有两种策略
是宁可错杀一千不可漏网一个呢
还是宁可漏网一千不可错杀一个呢
需要注意的还有
增加spam成本可能同时会增加正常用户的使用成本-例如使用识别码
其它问题
人手工参与到anti-spam的过程是否合适
我认为是合适的
却有人批评我们人工干预一些排名的确定
这种批评是没有道理的
那些标榜自己是完全机器生成而没有人工干预结果的是放屁!
因为
1.不可能没有人工干预,人工干预在很多时候,成本低,见效快。
2.算法是由人设计的,所以说机器生成的,也就是人生成的。如果不想让谁出现只要设计算法屏蔽就可以了,这样算不算没有人工干预而完全由机器生成呢。效果是一样的。
3.如果真的没有人工干预,那你打开各个搜索引擎的热门关键词排行榜,前十名一定有一半是色情词汇。
Sep
04
2007
欢迎使用 WordPress 。这是系统自动生成的演示文章。编辑或者删除它,开始您的博客!