2010年05月 存档

更新微博更轻松

2010年05月29日,星期六

http://t.163.com/hlwdashijie
http://t.sina.com.cn/1741243687
http://t.sohu.com/u/4389451
http://t.cnfol.com/home/u.5437216
http://t.cnfol.com/home/u.5437216
http://digu.com/hlwdashijie

5月28日,百度和Google双双大更新!

2010年05月28日,星期五

5月28日,百度和Google双双大更新!
我的网站喜忧参半,百度的收录减少了几十条,而本来就只有200多条而已;Google的收录多了几百条,现在已经6000多条了!
不过我还是希望尽量把网站建设的不依靠搜索引擎,否则哪天让人家看不上眼了,就给我K了!

360和可牛,我都选择和使用,谁要是卸载另一个,我就先把它卸载了!

2010年05月28日,星期五

360和可牛,我都选择和使用,谁要是卸载另一个,我就先把它卸载了!

http://www.wpsou.com

微软:十年后传统搜索引擎将消失

2010年05月28日,星期五

本周四,微软商业部门(Microsoft Business Division)总裁斯蒂芬·艾洛普在出席发布会时提出:到2020年人们获取信息的方式将大大变革,相关信息会自动出现,而传统搜索引擎服务将消失。

据了解,艾洛普是参加当地有关Office 2010和Natal项目介绍会时发表上述言论的。他认为,搜索引擎诞生十多年来核心机制没有实质性的变化,但未来我们接触的事物可能发生巨大改变。

官方演示视频: http://www.microsoft.com/showcase/en/us/details/e7728af1-3fe4-4e25-a907-3dbf689fe11a

在现场展示出的有关未来科技发展的视频中,来自全球各地的用户通过3D触控屏处理事物、联系家人,颇似科幻电影阿凡达中的创意。

艾洛普承诺道,微软正在努力将视频中展示的内容变成现实,绝不让其停留于好莱坞影棚里。

而Natal项目是近年来微软着力打造的创新工程。Natal不需要使用任何控制器,靠相机捕捉三维空间中玩家的运动,会让系统更加简易操。加入即 时动态捕捉、影像辨识、麦克风输入、语音辨识、社群互动等功能。

目前,软件巨头微软证实在云计算机领域投入了70%的人力,今后将扩大到90%。很难想象十年后的互联网是什么样。

sphinx:Rails程序员Sphinx中文全文检索安装指南

2010年05月27日,星期四

当时Sphinx还不支持中文分词现 在情况已经完全改变了李沫南为 Sphinx开发了中文分词插件—— libmmseg对于 libmmsegrobbin以前也 有介绍不过是用在Ferret里面

http://www.javaeye.com/topic/196451

李沫南还开发了个支持中文全文检索Sphinx定制版本——Coreseek除了支持中文全文检索外Coreseek最大特点是支持使用Python提供自定义数据源我们可以简单地理解为:Coreseek = Sphinx + libmmseg + py_datasource

Sphinx主要优势是:

1. 性能优异:robbin以前已经介绍过

2. 容易学习:架构很清晰学习成本很低

3. 和数据库结合更加紧密:对于以数据库为中心Web应用来说实现全文检索功能使用Sphinx开发工作量更低

Sphinx开发人员好像只熟悉PHP开发因此在其手册里面举例子都是用PHP写不过Rails/Ruby开发人员也可以很方便 地使用Sphinx

对于中文Rails开发人员而言做 全文检索最佳组合是Sphinx + libmmseg + UltrasphinxUltrasphinx是个Rails插件Rails开发人员可以使用它来很方便地Sphinx功能

这篇文档先介绍下这些工具安装思路方法和开发相关内容将在后续文章中介绍

1. 在Linux上安装

从这里http://www.sphinxsearch.com/downloads.html下载Sphinx 0.9.8 rc2版:

http://www.sphinxsearch.com/downloads/sphinx-0.9.8-rc2.tar.gz

tar zxvf sphinx-0.9.8-rc2.tar.gz

要在Sphinx中使用libmmseg需要为Sphinx打补丁从这里 http://www.coreseek.cn/opensource/Sphinx/下载两个补丁文件:

http://www.coreseek.com/uploads/sources/sphinx-0.98rc2.zhcn-support.patch

http://www.coreseek.com/uploads/sources/fix-crash-in-excerpts.patch

cd sphinx-0.9.8-rc2

patch -p1 < ../sphinx-0.98rc2.zhcn-support.patch

patch -p1 < ../fix-crash-in-excerpts.patch

自己打补丁比较麻烦而且补丁是针对特定Sphinx版本若版本不匹配会更麻烦最简单思路方法是直接使用李沫南已经打好补丁Coreseek包和自己打补丁效果是:

http://www.coreseek.com/uploads/sources/coreseek_fulltext_2.5.tar.gz

tar zxvf coreseek_fulltext_2.5.tar.gz

还需要从这里 http://www.coreseek.cn/opensource/mmseg/下载libmmseg:

http://www.coreseek.com/uploads/sources/mmseg-0.7.3.tar.gz

tar zxvf mmseg-0.7.3.tar.gz

首先编译libmmseg:

cd mmseg-0.7.3

./configure

make

make

然后编译 Sphinx使用李沫南打好补丁Coreseek包注意编译这个版本的前需要先安装个python-dev在RedHat/CentOS中这样安装:

rpm -ivh python-devel-2.4.3-19.el5.i386.rpm

可能还需要安装mysql-devel 这个包在RedHat/CentOS 发行版中有我这里已经安装好了

另外在编译前做 configure时还需要设置两个环境变量

cd coreseek_fulltext_2.5.source

CPPFLAGS=-I/usr//python2.4 LDFLAGS=-lpython2.4 ./configure

make

make

2. 在Windows上安装

在Windows上为Sphinx打补丁、编译、连接libmmseg要比在Linux上做这些事情麻烦得多而且大多数Windows上开发人员都没有自己编译开源软件Software习惯幸好李沫南已经做了个安装包:

http://www.coreseek.com/ft/csft_up_2.5.1.exe

执行这个安装包即可安装CoreseekWindows 版假设将Coreseek安装在 D:CsFullText25

将D:CsFullText25bin加入到环境变量PATH中以便以后在命令行能够找到Sphinx提供各种工具

3. 安装Ultrasphinx

Sphinx在Linux和Windows上都已经安装好了我们可以通过个Rails来做下测试

假设我们原先有个Rails应用thought_log

cd thought_log

在安装Ultrasphinx的前需要先安装个Ruby Gem:

gem chronic

然后安装Ultrasphinx插件:

ruby script/plugin -x svn://rubyforge.org/var/svn/fauna/ultrasphinx/trunk

若这个Rails应用尚 未提交到SVN中或者使用其他版本管 理工具则执行:

ruby script/plugin svn://rubyforge.org/var/svn/fauna/ultrasphinx/trunk

注意执行这条命令前需要先安装好SVN for Windows(不是TortoiseSVN)

为了在Windows 上正常使用Ultrasphinx需 要为Ultrasphinx打点补丁修改vendor/plugins /ultrasphinx/tasks/ultrasphinx.rake将其中:

Ruby代码

“searchd –config ‘#{Ultrasphinx::CONF_PATH}’”

“searchd –config ‘#{Ultrasphinx::CONF_PATH}’”

改为:

Ruby代码

“searchd –config “#{Ultrasphinx::CONF_PATH}”"

“searchd –config “#{Ultrasphinx::CONF_PATH}”"

这样修改原因是类似以下使用单引号写法:

searchd –config ‘D:/WORK/thought_log/config/ultrasphinx/development.conf’

在Windows上无法正常运行必须改为使用双引号写法:

searchd –config “D:/WORK/thought_log/config/ultrasphinx/development.conf”

除了例子中对searchd在ultrasphinx.rake文件中所有 执行命令行地方都需要做这样修改

4. 修改Sphinx配置文件并创建索引

安装完Ultrasphinx的后将:

vendor/plugins/ultrasphinx/examples/default.base

复制到:

config/ultrasphinx/default.base

为了正常支持中文全文检索需要对default.base做些修改

将其中:

char_type = utf-8

改为:

char_type = zh_cn.utf-8

并且在char_type设置下面加入行:

char_dictpath = D:/CsFullText25/share/csft_config/dict

然后删除所有char_table设置

要注意在 Windows上和Linux上路径区 别写法为了在Windows上正常使 用需要将default.base中所有路径改为绝对路径例如要将:

<% tmp = “/tmp/sphinx/” %>

改为:

<% tmp = “D:/tmp/sphinx/” %>

另外由于SphinxWindows版不支持 seamless_rotate需要 在development.conf中将这个功能关掉:

seamless_rotate = 0

修改 Model代码加入全文检索支持:

假设我有个Model叫做 Project其中有个属性叫做name我希望对这个属性做全文检索我在project.rb中加入行:

is_indexed :fields => ['created_at', 'name']

生成配置文件:

rake ultrasphinx:configure

这条命令执行后在config/ultrasphinx下创建 了个development.conf这个文件就是Sphinx配置文件

创建 索引:

rake ultrasphinx:index

索引相关文件创建在:

D:tmpsphinx

其中“D:tmp”是环境变量TMP

5. 启动Sphinxsearchd服务:

rake ultrasphinx:daemon:start

这个时候会在3313端口启动个searchd搜索请求将会全部发送到这个端口来执行

也可以自己手工来启动 searchd

searchd –config “D:WORKthought_logconfigultrasphinxdevelopment.conf”

在Windows上 还可以将searchd安装为个系统服 务:

searchd – –config “D:WORKthought_logconfigultrasphinxdevelopment.conf”

启动这个服务即可

6. 测试

ruby script/console

search = Ultrasphinx::Search.(:_names => ‘Project’)

search.run

search.results

如果执行这几条 语句都没有报错那么安装就成功了

草根也能做搜索引擎 站长进军高新领域不是梦

2010年05月27日,星期四

目前垂直搜索引擎正悄悄地改变着人们的生活!

所谓垂直搜索引擎是指特定行业或者特定领域内的信息搜索引擎,通过定向抓取行业内的网页并经过提取,分类,索引,给特定信息需求者提供搜索引擎 服务!垂直搜索引擎具有“专、精、深”的特点,具有行业色彩,相比通用搜索引擎的通用性,垂直搜索引擎更显得专注,具体和深入!

大家看到搜索引擎这个字眼,第一感觉就是,技术含量高,门槛高,一般站长是做不了的,但是,在技术迅猛发展的今天,我们草根站长也可以做搜索引 擎。

分析下搜索引擎的结构,无疑是三部分:

后端spider数据采集系统;

前端索引系统;

搜索系统。

关于spider采集系统,其实就是一个采集器,现在网络上面有很多优秀的采集器,我们把行业内的网站找齐了,分别加入抓取配置,对抓取回来的 信息经过提取和分类,即可入库给索引做数据源。

索引系统,这个比较的高深,涉及到中文分词和全文索引。中文分词,技术含量比较高,全文索引又涉及到高并发下的效率问题,但是不要着急,又有第 三方的工具可以帮助我们实现这点。Sphinx,优秀的全文索引系统,配合libmmseg中文分词工具,即可解决全文索引和中文分词的问题。 Sphinx是优秀的索引系统,单一索引最大可包含1亿条记录,在1千万条记录情况下的查询速度为0.x秒(毫秒级),效率问题完全不用考虑,交给 Sphinx处理就可以了。至于分词,libmmseg即可满足基本的中文分词需求,给我们草根,够用了,我们也可以针对特殊行业或者领域,给 libmmseg扩充行业词库,使得我们的分词更准确!

搜索系统,其实很简单,就是用我们熟悉的网页语言,PHP,ASP,JSP来查询我们做好的索引系统,然后将搜索结果用网页的形式展现给用户, 相信有点编程基础的站长完全可胜任!

一句话,草根做搜索引擎不是梦,只要我们肯专研,善于利用第三方的工具,如spider采集器,Sphinx索引系统等,完全可以构架出使用价 值极高的行业垂直搜索引擎来!

目前本人用PHP和Sphinx搭建了一个招聘信息搜索网站,GMJ招聘搜索,http://www.getmyjob.cn/, 目前Spider一天更新10多万条招聘信息,新增2万多条招聘信息,数据采集流程实现完全自动化,前端搜索响应也在毫秒级内,基本实现了招聘信息搜索的 需求!

我们草根站长完全可以进军垂直搜索领域,有兴趣的站长可以联系本人,一起探讨垂直搜索领域!

PHP做搜索引擎,有点不可思议!

2010年05月27日,星期四

但PHP确实可以做到!

搜索引擎,无疑是分为两部分,spider和index。

关于PHP做spider的效率,比起c和perl,可能确实不是强项,但是PHP可以fork,也可以调用Linux系统的IPC管道,加上 PHP强大的正则支持,利用这几点特性,就可以写出高效率的spider出来。

关于索引和中文分词等,我没用PHP做过分词和索引,但是索引和分词现在也是有很成熟的第三方开源项目,比如说sphinx,加上 libmmseg中文分词技术,就可以作出满足基本需求的搜索引擎出来。

目前本人用上面提到的几个方面构架了一个基本的招聘信息搜索引擎,当然啦,spider没有专业搜索引擎那么强大,但是指定14个网站,一天也是 可以新增和更新20几万的信息,用到的还是自己家的ADSL,感觉还不错,当然,还有很大的优化空间。

不知道村里有对搜索引擎感兴趣的没,我可以公开一下spider算法和索引构架,大家一起讨论优化,如果有感兴趣的,大家也可以一起来开发这个项 目,具体实施方案,欢迎大家讨论!

求职前先了解下行业职场的概况

毕业了,要找工作了,但是对现在行业的职场情况不是很了解,比如说,各个城市的工资水平,职位所要求的技能水平等。
到http://
www.getmyjob.cn上搜索一下,就能了解一个大概 的情况了,各位兄弟姐妹可以上去试试

雷军:未来10年手机将替代PC成为下一个中心

2010年05月27日,星期四

新浪科技讯 月27日上午消息,在今日举行的2010全球移动互联网大会上,天使投资人雷军表示,未来移动互联网的市场将是互联网的10倍以上。在未来10年内,手机 将替代PC成为下一个中心。

雷军表示,据年初摩根斯坦利的报告显示,到2020年,移动互联网终端将超过100亿台,包括智能手机、电子书、平板电脑以及各种娱乐终端。“过去 几年我一直讲,移动互联网势不可当,其规模将是互联网十倍以上。”

摩根斯坦利的报告还提到了黑莓、Window Mobile 5.0、iPhone、Android、Kindle、iPad等,“这些设备都被列入移动互联网的范畴,也是过去十来年全世界最轰动的产品。这些设备和 技术有效推动了整个移动互联网的发展步伐。”雷军表示。

雷军毫不讳言,“ipad是个伟大的产品。iPhone出售100万台用了76天,而iPad则不到1个月时间。也许大家可以试试,iPad可以取 代大家99%的工作,这就是新时代的开始。”

即使在使用iPad的同时,雷军发现无论用哪种设备都离不开PC。iPad可以直接联网,iPhone也可以,但每种设备最后都通过PC转接的。

但是这种状况正在转变。目前的手机的CPU已经到了1G,雷军相信在不久的将来,手机CPU计算能力会接近甚至会超过PC计算能力。同时,现在手机 存储能力和移动设备的存储能力都在大幅度的提升,随着3G、WiFi的普及,通信能力也在提升。

“中国每年出售手机就有3亿部,拥有量大概有7亿部,而且又随身携带。有这些特点,我就在想,也许未来的移动互联网,手机会变成真正的中心,替代 PC。绝大部分老百姓,他们有一部手机就足以解决所有问题。” 雷军最后表示,“我坚信,未来的移动互联网是以手机为核心的,因为未来十年,手机在绝大部分人、绝大部分工作场合将取代PC而存在。”(张伟)

媒体对富士康事件不负责任

2010年05月27日,星期四

富士康的兄弟姐妹走了12个了,媒体在其中的作用有点不厚道,媒体只是关注数字的累加。却很少对这个群体做一个分析,尤其缺少对这个群体心理辅导!
哎——我的兄弟姐妹,人生没有那么完美,但是也不要为一时的不得意或者想不开就离开。未来的路还很长,虽然有很多坎坷,但是更有很多的鲜花!
亲爱的兄弟姐妹们,你们的离开是父母们最大的悲伤!你们解脱了,你们的父母呢?
不要被媒体所忽悠,他们不是真的关心你们!他们只是看热闹的而已!
这个世界上真正疼爱你们的只有你们的父母!

米晓彬:360能否成为腾讯和百度的滑铁卢

2010年05月27日,星期四

在IT领域,偏执狂更多时候带有褒义色彩。Intel的创始人安迪·格鲁夫那句“只有偏执狂才能生存”的名言,让很多人以偏执狂自居,区别只是字 眼不同:华为的任正非是通讯领域的偏执狂,李彦宏是搜索技术的偏执狂,马化腾是产品研发经理中的偏执狂。在IT行业,偏执狂式执着、坚持、专注的代名词, 也是成功不可缺少的要素。

康盛创想的李明顺看到最近金山和360之间的口水战,不免发出感慨:创业和工作时,到底是该“旁骛杂念甚至不惜得罪人”还是该“和气生财”?微 博中,他又一次引用了格鲁夫的名句。而围绕着周鸿祎偏执狂式地生存,在围脖里讨论相当热烈,看来这次的口水战一时半会儿还停不了。

金山360口水战背景

360打口水战不是一次了,前两年和瑞星、卡巴斯基打,现在和金山打,360不但不觉得疲惫,反倒越战越勇,经验也更加老道。我们先来回顾下这 次口水战和背景故事:

上周,金山方面说,360升级新版本时提示用户卸载金山网盾,认为这是“赤裸裸的病毒”行为。本周,360回应,金山网盾有些网址过滤不掉,单 独用360就能过滤,另外指出,“金山网盾易崩溃、速度慢、有漏洞、难于卸载”,所以“不再与其兼容”;在外围,也戏剧性地发生了王海起诉金山的偶然事 件。

据说周鸿祎赤膊上阵,在微博上与金山大战了两个下午,发微博频率之高,发布之密集,足以让其他网络名人汗颜。不过笔者发现微博内容没有太多新 意,只不过是把公关稿逐篇拆开,稍加改动就成了“围脖体”。有人惊呼,周鸿祎开辟了微博公关的先河。而李明顺也有了那句“只有偏执狂才能生存”的感慨了。

笔者混迹于软件圈子,之前也写过个把文章,也许是触及了某些企业核心利益,现在这几篇文章都成了尸体,只有标题没有内容。所以,我不想去评谁扁 谁,只想把我了解到的背景给大家介绍下,有几个重点强调下:

1 两个杀毒软件很难再一台电脑上共存

之前安全软件互杀的事儿也不少,我多次问过安全领域的专家,关于两个杀毒软件能否共存的问题。得到回答是,两个杀毒软件并存结果是,他们都认为对方是病 毒。因为,杀毒软件和病毒类似,都是截取了底层权限,就好比保安看管大门钥匙,如果另外有人拿到钥匙开门,在保安眼里,那人就是小偷。

两个安全软件是能共存的,早先的瑞星卡卡、360安全卫士和金山清理专家都能共存。虽然也是安全软件,但安全辅助类软件没有获得底层权限,不会 有冲突。金山病毒可能与其他杀毒软件并存,但金山卫士和 360卫士是可以共存的。

2 关于安全浏览器。

360出了安全卫士后,360安全浏览器,360免费杀毒相继推出,市场占有率很高,让包括腾讯在内的竞争对手感受到压力。其中,安全浏览器尤其值得一 提。

作为上网的第一入口,浏览器已经可以带来丰厚的收益,如浏览器首页资源、网址导航以及搜索框。而事实上,360安全浏览器已经给奇虎公司带来了 丰厚的收益,成为他们继网页游戏、软件推广之外的三大营收来源之一。

傲游浏览器在国内曾拥有不菲的份额,但在奇虎推出免费杀毒和安全浏览器后,安装量受到一定影响,金山看到浏览器对于安全的需要,联合国内几个浏 览器厂商,通过内置金山网盾实现安全浏览器,据说,为此还专门开了一次发布会。

所以,傲游等浏览器和金山网盾之间的合作,也算是另外一种安全浏览器的模式。

3 360成了腾讯的滑铁卢

尽管很多浏览器用户量巨大,功能也非常强大,但面对主打安全的360浏览器,还是有些吃不消。这表现在两个方面:一是推广资源,360在安全卫 士的首页推广浏览器,还不断提示用户“安全浏览器的重要性;第二个就是兼容性。我记得搜狗CEO王小川聊安全浏览器时,对于这种合作方式也有担心,其中一 点就是接口开放度和兼容性。

360在浏览器和安全市场上攻城略地,除了让傲游、瑞星这些专业软件公司压力颇大,甚至连腾讯、搜狐这些已经上市的企业有些迎接不暇。腾讯是中 国互联网的客户端之王,几乎行内所有基于互联网的客户端,腾讯均有涉足,且收获颇丰,譬如QQ影音之于暴风影音;QQ音乐之于酷狗音乐;QQ输入法之于搜 狗输入法。

但腾讯与360交锋的领域却屡屡失败,QQ医生已经被360卫士边缘化,TT浏览器被360安全浏览器打得落花流水;至于杀毒领域,QQ尽管正 在招兵买马,但却不得不面对360先声夺人的优势。360成了QQ的滑铁卢;周鸿祎成了马化腾的克星。

TT和安全领域失手,几乎相当于马化腾的“失荆州”和“失街亭”,影响颇为深远。腾讯在搜索业务上投入数亿,甚至不惜重金四处挖人,旗下聚集了 不少搜索人才。但浏览器作为上网的第一入口,网址导航作为大部分初级用户的门户,却已经被360牢牢控制在手中。作为搜索领域的后来者,行内人都深知“没 有渠道,难成大事”。

4 百度框之痛

而对于目前的搜索老大百度而言,情形尤为尴尬。李彦宏专注技术,却疏于客户端的开发和推广。在输入法方面,马占凯最先找到的是百度,那是恰逢百 度上市,没有引起百度的重视,马占凯转投搜狐,最终成就了搜狗输入法。

百度和3721曾有过交锋,我想那时李彦宏已经领教了周鸿祎在客户端上开发和推广的功夫。而在随后的岁月里,周鸿祎的客户端依然强势,百度却少 有起色。百度推出了百度HI,短暂热闹后,却很少再有声音;百度的手机客户端如手机输入法、掌上百度,倒还占据了不少手机桌面。

在业内,大家认为百度最应该涉足的浏览器,作为用户上网第一界面的浏览器,事实上扮演者搜索引擎最重要渠道,浏览器直接影响搜索引擎的格局,但 百度却一直没有动静。而在推广方面,百度却更加倚重360安全浏览器以及的360网址导航。曾经被百度纳入囊中的Hao123,也被360导航边缘化,价 值已经大大缩水。

如果说360是腾讯的滑铁卢,就百度而言,几乎是扼住了百度的喉咙。百度不得不面对这样的尴尬:一边要交给360搜索不菲的搜索分成,同时自己 的产品被边缘化。360掌握的客户端虽然不及腾讯,却已经远远超过了百度。每个客户端用户数量并不相同,却都占据了桌面上的一个快捷图标、任务栏上的一个 logo或者系统的一个进程。

李彦宏专注于技术,提出了框计算,但作为一个常识,电脑上任何一个搜索框都要出现在浏览器里,而这对于百度却还是“零”。

从放虎归山到养虎为患

我曾经撰文《马化腾岂能放虎归山》,现在看,事实上已经形成了“养虎为患”的结果。对于360和金山之间的口水战,我不认为这是简单的企业之间 的竞争,而且也是互联网行业失衡,新霸主即将产生的标志。在这个过程中,腾讯、百度、甚至偶尔有些高调的阿里巴巴,都已经对奇虎360无可奈何。

文章结尾之际,我打开腾讯的首页,发现QQ.com首页上最显著的那块Banner留给了TT浏览器。腾讯不惜用最好的广告位支持TT浏览器, 我想,如果不是市场份额迅速下滑,决不至于如此。

看来,正在崛起的360,正在挑战现在的互联网大佬们,而在客户端上“战无不胜”的周鸿祎在面对另外一个“常胜将军”马化腾时,又将会出现什么 结果?周鸿祎、马化腾和李彦宏三个偏执狂,谁是最后的胜利者,还是拭目以待吧!