信息浩瀚无边让高质量在网络搜索中说话

superadmin · 发表于 2008-12-20 23:30:33

短短几十年间，计算机和互联网技术已经使信息、知识和教育领域的核心准则发生了革命性变化，在不远的未来，学生们将能够在不接触书本的情况下读完高中。

在不远的未来，学生们将能够在不接触书本的情况下读完高中。而在20年前，他们可能直至高中毕业都没有碰过电脑。短短几十年间，计算机和互联网技术已经使信息、知识和教育领域的核心准则发生了革命性变化。可不是嘛，现在你尽可以将书本信息储存在笔记本电脑的硬盘里，它甚至可以比一家藏书60000本的书店容纳的还多。据说，如今互联网上的网页数目已经超过了5000亿，如果换成等量的书（每本500页），则要用10架现代的航空母舰才能载满！

这样类比一下，我们才能更形象地认识到当今信息爆炸的巨大程度，同时也意识到随之而来的问题。网络搜索引擎（web search engines）是唯一可以帮助我们在浩瀚信息海洋中定位的工具。因此，它不应该被误以为是一个可用可不用的附加物，一个没事按着玩玩的“搜索”按钮，或者只被用来查查最近的披萨店在哪儿。“搜索引擎”是知识、资源、甚至错误信息最强大的散布渠道。

说起搜索引擎，人们的第一反应无疑是“谷歌”（Google）。称谷歌为当今互联网发展的缔造者，并不牵强附会。它造就了一代新人，这代人的观念和生活方式与他们的父辈迥然不同。“婴儿潮”一代（Baby Boomers，指美国1945--1960年间处于高生育率时期出生的人——译注）可能对此感触最深，因为他们在童年时期经历了疯狂的“摇滚乐”热潮，而为人父母时则见证了“谷歌”时代。谷歌的设计布局是基于统计学的运算法则。但是，基于统计学运算法则的搜索技术是不能够辨别信息质量的，因为高品质的信息并非总是最受欢迎，同样，流行的信息也不总是高质量的。你可能会花很长时间来收集资料，但是别指望那些冗杂的信息有什么用处。

此外，统计数据收集系统（statistics collection systems）总是会慢半拍，

因为数据资料需要人工来转介、收集整理。所以，普遍使用的那些搜索引擎很难找到新出版物（这里指在网上新发布的信息——译注）和那些高频率更新内容的动态网页（dynamic pages）中的信息。举个例子来说，现行搜索引擎的低效率已经催生了一个新的事物，叫做“搜索引擎优化”（Search Engine Optimization），它专注于解决如何将搜到的网页链接排在更靠前的位置，与谷歌式搜索引擎（Google-esque search engines）的普遍标准不一样。这是一个价值十亿美元的行业，如果你的钱够多，那么你的网页就可以比其他网页占据一个更靠前的位置，即使它们比你的质量高或更可信。因为谷歌的出现，商界从来没对“高质信息”问题如此敏感过。

superadmin · 发表于 2008-12-20 23:31:18

信息质量，这一由网络搜索弊端带来的问题将决定人们的未来，但是要质量则必须进行技术革新，现在的数据统计技术有所突破。其实，这场革命已经悄然开始了，被称为“语义分析技术”（semantic technology）。换句话说，就是教电脑识别人类世界的运行规范。比如，当电脑碰到“bill”这个单词时，它就会明白在英语中，“bill”有多达15个不同的释义；而当遇到“killed the bill”这个短语时，它则会想到这里的“bill”可能应理解为“递交给立法机关的一个法案”，而这里“kill”是“stop”的意思。

但要遇到“kill bill”，则是专指那部电影（《杀死比尔》）的名字了。这样一系列类似的演绎推理将会扩展到整个句子和段落，最终呈现出准确的全文描述。

若想通过计算机的运算法则，使电脑具有如此机敏处理语言的能力，就必须建立一套“本体论”（Ontology，近年信息科学界最热门的词汇之一，“共享概念模型的明确的形式化规范说明”是目前对Ontology概念的统一看法。Semantic Web研究者认为，Ontology是一个形式化定义语词关系的规范化文件——译注）。“本体论”不是一部字典，也不是一部同义词词典。它是一张具有相关概念和词意的地图，反映两个不同概念之间所存在的联系，比如上面提到的“bill”和“kill”。

建立这样一个总结世间万物信息的“本体论”可能是一个巨大的工程，几乎等于是编制一个浩大的百科全书，并且要求有相关领域的专家来编纂，但这并非不切实可行。世界范围内的几个新兴企业，比如Hakia、Cognition Search 和Lexxe都已对此发出挑战。他们努力的结果将如何，我们拭目以待。

但是，语义分析搜索引擎将如何解决信息质量的问题呢？答案很简单：精确性。一旦计算机可以用精确的语义分析来处理人类的自然语言，高质量的信息就可以直接到达最终用户，而不是像现今的网络搜索，需要信息首先大众化。

通过探测分析一个特定文本中概念的丰富含义和前后连贯性，语义分析技术对保证信息质量的意义更多。比如，若一个文本中含有一句“Bush killed the last bill in the Senate”（布什在参议院否决了最后一条议案），那在这个句子之后，是否还有相一致的概念？这个网页是不是一个广告泛滥的垃圾网页，在字里行间插满了广告？语义分析技术对此见招拆招，都可以辨别出来。

鉴于人类阅读速度有限（每分钟200到300字），而今可获取的信息却是浩瀚无边，那么想在获取精准信息的各个方面做出有效决策，就很需要语义分析这样的技术了。如果未来世界中的知识备受名望与金钱的摆布，那我们将会寸步难行。（

		自动登录	找回密码
密码			注册

全国各地医院查询	重量转换换算	RGB颜色查询	交通标志大全	各类快递查询
简体繁体转换	黄金价格实时走势	万年历查询	实时汇率转换	列车时刻查询
在线翻译工具	CSS中文手册	HTML学习教程	MySQL中文手册	JavaScript中文手册
PHP安全基础手册	PHP5面向对象编程教程	正则表达式系统教程	SQL Server精华	Apache 2.2 中文手册
DOS命令全集指南	windows脚本技术中文版	股票行情查询	历史上的今天	邮编区号查询
长度转换换算	货币汇率转换	常用电话号码	体育彩票查询	手机位置查询
域名Whois信息查询	谷歌PR值查询	台州网站建设	台州网站开发	台州域名注册
天气预报查询	长度转换换算器	在线电子地图	车牌号码查询	中国百家姓查询

信息浩瀚无边 让高质量在网络搜索中说话

相关帖子

信息浩瀚无边让高质量在网络搜索中说话