播客搜索引擎能将音频转换成文本 准确率高达80%

2007-06-15 09:49:19 来源: 网易科技报道 网友评论 0 进入论坛
  •   波士顿初创公司EveryZing日前推出一款新的视频和音频搜索引擎——PodZinger,它是一款播客搜索引擎,可将音频内容转换成文本,而且准确率在80%以上。

图注:这款新的视频和音频搜索引擎可以将音频内容转换成文本,而且准确率在80%以上,足以体现音频的主要内容,能指导用户迅速在文件中找到某个搜索目标词出现的地方,并总结出音频内容的核心意思。

波士顿初创公司EveryZing日前推出了一款搜索引擎,希望改变人们在线搜索音频与视频的方式。EveryZing推出的这款搜索引擎的正式名称叫做PodZinger,是一款播客搜索引擎,它采用了BBN技术公司开发的一种语言系统,可以将语音转换为可搜索的文本信息,准确度在80%以上。 EveryZing公司首席执行官Tom Wilde说,这个系统比目前市场上可获得的其他同类系统都要好。

Wilde说,这么高的准确度可以带来许多新搜索功能,比如提供视频和音频的完整文本,以及直接跳到话语中某个词或者词组被说出的位置。这项技术还可以让公司提供与特定内容有关的有针对性广告,就好像Google推出的基于网页中文本的广告一样。

Wilde说:“在线视频和音频的最大问题是媒体内容是含糊不清的。”很难弄清一段视频或音频剪辑文件中的内容范围。他说:“我们希望解决的问题是网络搜索中多媒体内容的可识别性问题。EveryZing是通过从多媒体文件中摘出部分内容然后输出文本,然后利用现有的文本搜索工具进行搜索。”

由于YouTube、网播、电视新闻报道和国家公共电台节目的蓬勃发展,网络上的多媒体内容呈爆炸式增长。但是现在还很难进行视频搜索,比如很难搜索出某个词在哪些视频中被提及。 通常,剪辑文件的名称和人们给它分配的标签并没有包含足够的信息供搜索之用,这就是为什么许多企业在过去的两年中一直在研究利用音频内容做搜索的参考的原因。 例如,视频搜索引擎Blinkx利用语音识别技术来快速搜索整个网络寻找相关内容,然后将搜索结果归集在一个网站上,就象Google搜索引擎归集网页一样。

Wilde说,EveryZing的业务目标与Blinkx的业务目标是不同的,他认为这两者可以相辅相成。他说:“我们是想推销内容,而不是搜索网络。” EveryZing(与Blinkx一样,为网民们提供了一个搜索门户)主要是想与内容供应商们合作,让它们的多媒体内容变得可搜索。例如,公司想将ABCcom网站上的所有音频与视频内容都转换成可搜索的文本,在文本上添加时间戳,这样网民们就可以迅速跳到一段剪辑文件中的某个具体字眼处。

另外,BBN公司的技术与Blinkx目前的技术是不同的,它可以让EveryZing从剪辑文件中提取出一些原本可能不能被搜索的高水平概念。如果某个人想搜索Barack Obama,EveryZing可能会在剪辑文件中列出其他的关键字,比如“rally”。

其实利用音频文本来搜索多媒体的想法已经研究了几十年了,而基本的语音识别研究可以追溯到更早的时候。许多最早的研究工作发生在BBN、麻省理工学院、卡利美隆大学、IBM和斯坦福国际研究所。 卡利美隆大学的电气和计算机工程学教授Richard Stern说,卡利美隆大学在1995年演示了一个类似的视频搜索系统。 他说,这个名为Informedia的系统促进了该领域的其他研究,是BBN的现代视频分析系统的前身。

EveryZing的基本技术由波士顿BBN的两种基本技术组成。Wilde说,被称为Byblos的核心语音-文本系统在过去的5年中获得了5000万的研发资金,那些资金主要来自一系列的政府拨款。 那个系统是采用统计设备来学习算法,将一分钟的音频内容转换成文本需要一分钟的时间。

Wilde说,第二种基本技术是对文本内容进行处理的一些算法。BBN的自然语言技术包括了非常丰富的成语和带有上下文的字词,这样就有助于它弄清楚视频中的意义。 例如,一段关于健康卫生的新闻剪辑可能会使用一些医学领域的专用词汇。在这种情况下,系统就能够识别出某些模糊不清的词汇。 Wilde说,理解文本的意义是一种很强大的工具,因为它可以让EveryZing为用户们提供很准确的概念,用户们就可以更准确地进行搜索。更重要的是,它可以让公司更准确地将特定广告与合适的内容对应起来。

卡利美隆大学的Stern教授说,现在视频搜索引擎已经具备这些功能了。他说:“与纯文本相比,视频更引人注目一些,而且它的娱乐性更强。”现在互联网上的视频内容已经很多很多了。 他补充说,BBN80%的准确度是一个相当大的成绩,应该已经适用于搜索在线视频内容了。

EveryZing公司的Wilde说,虽然这项技术不错,但是它还不够完美。当音频和视频文件中带有背景音乐时,或者有多个人同时讲话时,它的准确度就会下降。 但是在信息和新闻市场也就是该公司目前瞄准的市场,那项技术应该可以对现有的技术提供重要的改善。Wilde说:“我想,在几年之后我们回头再看时可能会说‘多媒体文件的内容当然必须是可搜索的’, 就好象网页只能通过标题和标签来搜索一样。”(三张)

更多新技术、新产品,尽在科技趋势频道>> 
tingting

本文来源:网易科技报道
我来评两句
我的灌水记录
匿名发表
tech
精彩推荐

今日网易科技看点


39健康网_中国第一健康门户网站
商业推荐

排行榜

今日网易财经看点


主编信箱 热线:020-85105316 给网易提意见 
About NetEase - 公司简介 - 联系方法 - 招聘信息 - 客户服务 - 相关法律 - 网络营销
网易公司版权所有
©1997-2008