Sep
14
2007
网民的创造力是无穷的!
经常在网上看到这个字符串组合“orz”,一直不知道是个啥意思。今天终于忍不住问同事,他也不知道。于是百度一下,感谢伟大的百度百科。

“orz” 学名:失意体前屈。
从百度百科摘抄一段:原本指的是网络上流行的表情符号:_| ̄|○ ,它看起来像是一个人跪倒在地上,低著头,一副“天啊,你为何这样对我”的动作,虽然简单却很传神。
在初期,并没有人对这个符号起个名字,“失意体前屈”这个名字也是后来才出现的。据说是某个餐厅的座垫上绣著这五个字,至于在这之前又是谁想到的,目前尚未厘清真相。 后来,又有人发现,用简单的三个英文字也可以表现这个动作,于是orz就开始流行了。接下来,更有 orz 的日志软件、日志网站相继出现。在2004年后,于日本、中国大陆、香港与台湾俨然已经成为一种新兴的网络文化。
更NB的是“orz”的各种变体,以下拷贝几个,完全版请看百度百科。当然,读者也可以自己创造几个。
全角:
_| ̄|○ ← 右向
○| ̄|_ ← 左向
半角:
STO ← 右向
OTZ ← 左向
迷你形:
no ← 右向
on ← 左向
高级变体:
囧gg
有趣变体:
orz 这是小孩
OTZ 这是大人
OTL 这是完全失落
or2 这是屁股特别翘的
or2=3 这是放了个屁的
Or2 这是头大身体小的翘屁股
Or? 这也是头大身体小的翘屁股
orZ 这是下半身肥大
OTz 这是举重选手吧
○rz 这是大头
On 这是婴儿
crz 这是机车骑士
prz ← 长发垂地的
orz 崮rz 这是囧国国王
莔rz 这是囧国皇后
srQ ← 换一边并舔地板的orz
:◎:rz ←这是张大嘴巴嚎啕大哭的失意体前屈
oΩ: ←背部隆起的
更多请参看百度百科…
网络的语言是无敌的,好比最近出现的知音体和很久以前的梨花体
orz
Sep
12
2007
这几天看抓虾热文,发现又出现一个作弊的小高潮,出现了几篇明显的作弊文章。
作为一个digg类网站,反作弊(anti-spam)应该是一个常抓不懈的工作,否则将出现破窗效应,越是放任作弊,作弊的就越多。所以对作弊行为,应该发现一起,严肃处理一起,决不能手软。即使是优质频道,也可以处理几个,达到杀一儆百的效果。
具体的anti-spam的手段就多样化了
可以针对用户,判断是否是有效的用户;
针对行为,判断是否是有效的操作;
针对数据,判断数据是否有特征;
人肉判断也可以,什么奇技淫巧都可以,有效就好。
顺便收集一下国内的digg类网站,欢迎补充
我常看的有
抓虾
草根
板砖
奇客
其他网站,有很多已经关站甚至页面无法打开了
顶啊 http://www.dingr.com
窝窝网 http://www.mywowo.com
新聚网 http://www.tagriver.com
教育掘客 http://www.edudig.net
中国掘客 http://www.cndigg.com
投吧网 http://www.vooote.com
中国掘客 http://www.digg.cn/
掘客网 http://www.cndig.com
挨踢英雄榜 http://hero.itqun.com/
17dig.com
比客窝 http://www.pkooo.com
diggfox.com
livedigg.com
www.new21.cn/
http://tuidao.com
www.diggbuzz.com
Sep
11
2007
2007年8月29号,Nokia发布互联网战略。将是另一个iPod + iTunes 这种 硬件 + 服务 的模式吗?也许会的。
Nokia手机在全球有8亿用户,如此庞大的用户群是可以有很多东西可以挖掘的。随着3G网络的普及,手机上的多媒体应用也将越来越多,因为传统的移动业务如电话、短信等不足以消耗3G网络的带宽,要想达到充分利用3G网络的效果,音频视频或者流媒体(stream media)等业务的发展势在必行。这一趋势可能会孕育出新的互联网巨头,结果充满想象。
先来说说Nokia进军互联网对我的影响,Nokia发布了其进军互联网的门户网站ovi(www.ovi.com ,预计四季度发布),围绕ovi这个名字,可以挖掘出一些有意义的域名,如cnovi,ovicn,chinaovi,ovichina等,一旦ovi发达了,这些域名也可能获得机会。赶快去注册吧!
有这样想法的人太多了,所以,这些域名都已经在8月底、9月初被注册光了,我也慢了一步,扼腕叹息啊。翻找了半天,注册了 oovii.com 这个域名,沾点小边,呵呵。一韬和我说过,成功的网站域名里有两个o,呵呵, oovii 里面也有两个o,有意思。
Sep
10
2007
今天在抓虾(zhuaxia.com)上看到篇文章“中文博客搜索引擎大全”
作者列出的博客搜索引擎有
百度博客搜索 http://blogsearch.baidu.com/
谷歌博客搜索 http://blogsearch.google.cn/
搜狗博客搜索 http://blogsearch.sogou.com/
有道博客搜索 http://blog.yodao.com/
爱问博客搜索 http://blog.iask.com/
奇虎博客搜索 http://blog.qihoo.com/
Souyo中文博客搜索引擎 http://www.souyo.com/
feedss中文RSS搜索引擎 http://www.feedss.com/
博搜(博客网站内搜索) http://www.booso.com/
新浪博客搜索(站内搜索) http://search.blog.sina.com.cn/blog/
我比较奇怪的是里面居然没有抓虾,抓虾虽然没有宣传自己是博客搜索,但是从其首页的数据看,抓虾收录了4,804,341 个博客和新闻频道,494,730,371 篇精彩文章,这个规模是很大的,在抓虾中搜索博客也应该是没问题的,于是测试了几个词在各个搜索引擎中的索引量(2007年9月10日18点)。
搜索引擎 keso 私房菜 韩寒 河蟹
百度 18900 35800 222000 16400
谷歌 84579 235940 19074 21524
搜狗 1635929 5762111 12238364 3018033
有道 11600 66900 120000 17000
爱问 50520 286098 1361328 100326
奇虎 8559 41584 150785 11249
souyo 1450 29 5131 100
feedrss 1404 5774 31672 1527
博搜 687 3612 9507 450
抓虾 7912 2200 11042 3267
由此可以看出,百度,谷歌,搜狗,爱问的博客索引量属于第一集团;有道,奇虎,抓虾,feedrss的索引量可以算第二集团;souyo和博搜算作第三集团了。
以上所有搜索引擎都提供了多种排序方法,其中只有搜狗,抓虾,爱问,souyo提供了对博客作者的搜索。
使用抓虾搜索的好处是,可以知道一个博客的受关注程度,因为可以在抓虾中看到一个博客的订阅量和被搜索文章的推荐和收藏量,这两个值对判定文章的质量应该很有帮助。
另外,搜狗的索引量大的惊人,不知道有没有水分。
Sep
09
2007
这几天看了点存储系统方面的文章,知道了一些几十,甚至上百TB级的系统,恐怖啊。
存储系统不是越大越精良越好,因为面对的应用不同,对存储系统的要求也会不同。一个基本要求是,在够用的情况下,尽可能的降低成本。
我们对存储系统的需求:
1.抽象(Abstract),可存储多种格式数据
2.可扩展(Scalable),容易扩展,以适应更大规模数据
3.可靠(Stable),长时间不间断服务
4.随机存取(Random Access)快速随机访问
5.海量存储(Large Size),TB级的数据
6.可记录,可监控,可恢复(Log,Monitor,Recovery)
7.垃圾空间可回收(Garbage Colection)
8.具有一定的容错性(Error Tollerance)
9.接口简单(Easy User Interface)
额外需求,低成本
Sep
09
2007
在digg类的服务中,如何能让digg出的内容好看起来,或者说,让digg出的内容更符合读者自己的口味?方法只有一个,参与到digg的过程中去。
如果有读者抱怨内容不好看了,那首先要检讨自己是否参与到了投票过程中去,因为上榜的内容是由投票者决定的,反应了投票者的口味和喜好。这样的 内容会吸引相同口味的读者,并吸引部分人参与到投票中来。这是一个正反馈的过程,同一种口味的内容被放大,使整个投票出的内容单一化,失去了对更多人的吸 引力。这一过程通常也伴随着作弊的产生。
所以,digg内容的好快关键在用户参与的多少。在这种公共类的服务中,用户总是倾向于直接享用已有的成果而不贡献自己的力量。而digg.com却成功吸引了大量的用户参与到投票过程中来,这是为什么呢?抓虾 (zhuaxia.com)上的一篇文章对此进行了详细的分析,相关的网址如下
http://www.zhuaxia.com/item/429224469
http://www.20ju.com/content/V9668.htm
http://www.mywowo.com/news.asp?Gmail_ID=589
该文从投票成本,个人收益,潜在收益等几个方面分析了为什么digg.com能吸引众多的用户。digg.com可能很多人都不用不熟悉,但是可以参照国内最成功的digg–“抓虾热文”来说,上文中关于digg成功的特性,抓虾热文几乎都具备:
1)投票成本低,无论是学习成本还是操作成本。投票(推荐、收藏)在抓虾中只需要鼠标点击一下即可。
2)收藏结合web2.0的标签功能。在抓虾中,收藏也相当与对一篇文章投票,收藏的同时可以对文章打上标签,便于对个人收藏的整理。
3)投票和博客浏览无缝对接。抓虾同时是国内最好的RSS阅读器,在阅读各种信息的同时可以投票、收藏。
4)拥有社交功能。抓虾的社交功能刚刚起步,但可以看出抓虾做社区化阅读的决心,近期的产品(以抓虾的个人页面为代表)改进都在围绕其进行。
5)具备了普通媒体的效用。抓虾热文的品牌已经很响了,浏览量也很大,很多不用抓虾做阅读器的人也经常去看抓虾热文。抓虾热文可以提供优质的内容,并为内容网站带去可观的流量。
6)投票过程和个人利益的结合。这一点在抓虾中没有明显的体现,也是抓虾应该加强的一点。将个人利益和投票过程结合,能够更多的鼓励用户参与到投票过程中。
7)公共收益。抓虾热文作为一个信息的平台,提供最新、最前沿、最流行、最高质量的资讯,方便更多的人获得信息。
负面因素:最主要的负面因素是spam,这是各种信息提供平台发展到一定程度都会遇到的问题,随着影响力的增大,这些平台会逐渐成为各种 spam的目标。不过很高兴抓虾热文改版后对spam的控制的加强,热文中已经看不到明显的spam了。anti-spam还是要作为一个重要工作常抓不 懈。
对服务提供者来说,想让digg的内容更好看,根本的方法还是吸引用户的参与。
对用户来说,想看到更好的内容,根本的方法是参与到digg中去。开始投票、收藏、推荐吧。

Sep
09
2007
anti-spam的思路可以分成两种
一:
增加spam的成本
二:
识别spam,清除掉
增加spam的成本,这种方法很常见
例如,对于digg类的应用来说因为
参与的人数众多,spam的成本就比较高
像网站注册或者发表评论和留言时输入验证码也是提高spam成本的方法
方法二识别spam就有点难了
可以观察一些特征,并设计算法来识别
高级一点的算法如机器学习或者数据挖掘等
但是如果spam的特征不明显就很难识别了
这就有一个识别率的问题
这里涉及到两点
一是识别spam的正确率,即有多少比例的spam被识别出来了
二是识别错误率,即有多少非spam被识别成spam了
相应的就有两种策略
是宁可错杀一千不可漏网一个呢
还是宁可漏网一千不可错杀一个呢
需要注意的还有
增加spam成本可能同时会增加正常用户的使用成本-例如使用识别码
其它问题
人手工参与到anti-spam的过程是否合适
我认为是合适的
却有人批评我们人工干预一些排名的确定
这种批评是没有道理的
那些标榜自己是完全机器生成而没有人工干预结果的是放屁!
因为
1.不可能没有人工干预,人工干预在很多时候,成本低,见效快。
2.算法是由人设计的,所以说机器生成的,也就是人生成的。如果不想让谁出现只要设计算法屏蔽就可以了,这样算不算没有人工干预而完全由机器生成呢。效果是一样的。
3.如果真的没有人工干预,那你打开各个搜索引擎的热门关键词排行榜,前十名一定有一半是色情词汇。
Sep
04
2007
欢迎使用 WordPress 。这是系统自动生成的演示文章。编辑或者删除它,开始您的博客!