查看: 6831|回复: 1
打印 上一主题 下一主题

信息浩瀚无边 让高质量在网络搜索中说话

[复制链接]
跳转到指定楼层
1#
发表于 2008-12-20 23:30:33 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
台州网址导航
短短几十年间,计算机和互联网技术已经使信息、知识和教育领域的核心准则发生了革命性变化,在不远的未来,学生们将能够在不接触书本的情况下读完高中。




在不远的未来,学生们将能够在不接触书本的情况下读完高中。而在20年前,他们可能直至高中毕业都没有碰过电脑。短短几十年间,计算机和互联网技术已经使信息、知识和教育领域的核心准则发生了革命性变化。可不是嘛,现在你尽可以将书本信息储存在笔记本电脑的硬盘里,它甚至可以比一家藏书60000本的书店容纳的还多。据说,如今互联网上的网页数目已经超过了5000亿,如果换成等量的书(每本500页),则要用10架现代的航空母舰才能载满!

这样类比一下,我们才能更形象地认识到当今信息爆炸的巨大程度,同时也意识到随之而来的问题。网络搜索引擎(web search engines)是唯一可以帮助我们在浩瀚信息海洋中定位的工具。因此,它不应该被误以为是一个可用可不用的附加物,一个没事按着玩玩的“搜索”按钮,或者只被用来查查最近的披萨店在哪儿。“搜索引擎”是知识、资源、甚至错误信息最强大的散布渠道。

说起搜索引擎,人们的第一反应无疑是“谷歌”(Google)。称谷歌为当今互联网发展的缔造者,并不牵强附会。它造就了一代新人,这代人的观念和生活方式与他们的父辈迥然不同。“婴儿潮”一代(Baby Boomers,指美国1945--1960年间处于高生育率时期出生的人——译注)可能对此感触最深,因为他们在童年时期经历了疯狂的“摇滚乐”热潮,而为人父母时则见证了“谷歌”时代。谷歌的设计布局是基于统计学的运算法则。但是,基于统计学运算法则的搜索技术是不能够辨别信息质量的,因为高品质的信息并非总是最受欢迎,同样,流行的信息也不总是高质量的。你可能会花很长时间来收集资料,但是别指望那些冗杂的信息有什么用处。

此外,统计数据收集系统(statistics collection systems)总是会慢半拍,

因为数据资料需要人工来转介、收集整理。所以,普遍使用的那些搜索引擎很难找到新出版物(这里指在网上新发布的信息——译注)和那些高频率更新内容的动态网页(dynamic pages)中的信息。举个例子来说,现行搜索引擎的低效率已经催生了一个新的事物,叫做“搜索引擎优化”(Search Engine Optimization),它专注于解决如何将搜到的网页链接排在更靠前的位置,与谷歌式搜索引擎(Google-esque search engines)的普遍标准不一样。这是一个价值十亿美元的行业,如果你的钱够多,那么你的网页就可以比其他网页占据一个更靠前的位置,即使它们比你的质量高或更可信。因为谷歌的出现,商界从来没对“高质信息”问题如此敏感过。
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖
台州维博网络(www.tzweb.com)专门运用PHP+MYSQL/ASP.NET+MSSQL技术开发网站门户平台系统等。
2#
 楼主| 发表于 2008-12-20 23:31:18 | 只看该作者
台州网址导航
信息质量,这一由网络搜索弊端带来的问题将决定人们的未来,但是要质量则必须进行技术革新,现在的数据统计技术有所突破。其实,这场革命已经悄然开始了,被称为“语义分析技术”(semantic technology)。换句话说,就是教电脑识别人类世界的运行规范。比如,当电脑碰到“bill”这个单词时,它就会明白在英语中,“bill”有多达15个不同的释义;而当遇到“killed the bill”这个短语时,它则会想到这里的“bill”可能应理解为“递交给立法机关的一个法案”,而这里“kill”是“stop”的意思。

但要遇到“kill bill”,则是专指那部电影(《杀死比尔》)的名字了。这样一系列类似的演绎推理将会扩展到整个句子和段落,最终呈现出准确的全文描述。

若想通过计算机的运算法则,使电脑具有如此机敏处理语言的能力,就必须建立一套“本体论”(Ontology,近年信息科学界最热门的词汇之一,“共享概念模型的明确的形式化规范说明”是目前对Ontology概念的统一看法。Semantic Web研究者认为,Ontology是一个形式化定义语词关系的规范化文件——译注)。“本体论”不是一部字典,也不是一部同义词词典。它是一张具有相关概念和词意的地图,反映两个不同概念之间所存在的联系,比如上面提到的“bill”和“kill”。

建立这样一个总结世间万物信息的“本体论”可能是一个巨大的工程,几乎等于是编制一个浩大的百科全书,并且要求有相关领域的专家来编纂,但这并非不切实可行。世界范围内的几个新兴企业,比如Hakia、Cognition Search 和Lexxe都已对此发出挑战。他们努力的结果将如何,我们拭目以待。

但是,语义分析搜索引擎将如何解决信息质量的问题呢?答案很简单:精确性。一旦计算机可以用精确的语义分析来处理人类的自然语言,高质量的信息就可以直接到达最终用户,而不是像现今的网络搜索,需要信息首先大众化。

通过探测分析一个特定文本中概念的丰富含义和前后连贯性,语义分析技术对保证信息质量的意义更多。比如,若一个文本中含有一句“Bush killed the last bill in the Senate”(布什在参议院否决了最后一条议案),那在这个句子之后,是否还有相一致的概念?这个网页是不是一个广告泛滥的垃圾网页,在字里行间插满了广告?语义分析技术对此见招拆招,都可以辨别出来。

鉴于人类阅读速度有限(每分钟200到300字),而今可获取的信息却是浩瀚无边,那么想在获取精准信息的各个方面做出有效决策,就很需要语义分析这样的技术了。如果未来世界中的知识备受名望与金钱的摆布,那我们将会寸步难行。(
台州维博网络(www.tzweb.com)专门运用PHP+MYSQL/ASP.NET+MSSQL技术开发网站门户平台系统等。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

网站推广
关于我们
  • 台州朗动科技(Tzweb.com)拥有多年开发网站平台系统门户手机客户端等业务的成功经验。主要从事:政企网站,系统平台,微信公众号,各类小程序,手机APP客户端,浙里办微应用,浙政钉微应用、主机域名、虚拟空间、后期维护等服务,满足不同企业公司的需求,是台州地区领先的网络技术服务商!

Hi,扫描关注我

Copyright © 2005-2026 站长论坛 All rights reserved

Powered by 站长论坛 with TZWEB Update Techonolgy Support

快速回复 返回顶部 返回列表