English
 
您现在的位置 首页 > 解决方案 >  跨语言信息检索处理平台
跨语言信息检索处理平台解决方案

系统简介
  
跨语言信息检索(cross language information retrieval, CLIR)是指用某一种语言提出检索要求,计算机在其他不同语种的文本中进行自动搜索,得到的检索结果甚至可以翻译成用户指定的特定语种。
    跨语言信息检索结合了传统文本信息检索技术和机器翻译(machine translation, MT)技术。在当今信息社会中,跨语言信息检索已成为世界范围内一个亟待解决的热门课题。
    传统的信息检索系统主要是针对单一语种的文档集实现,一般是使用用户最为熟悉的语种作为查询语言。而随着互联网的迅速发展,用户面对查询一个多语种文本集合的情形,已变得越来越普遍。这就产生了一个难题——以一种语言描述的用户查询与其他不同语种书写的文本之间的匹配问题,也就是如何跨越语言界限的问题。
    信息检索中,输入的查询语句,往往是一系列关键词组合,而不是一个完整的句子。这样一来,查询关键词序列由于缺乏必要的语境、语法信息,所以翻译转换时不能简单的采用传统的MT技术。我们基于大规模双语语料知识库,以向量空间模型和词汇同现互信息为理论基础,运用传统单语信息检索技术,实现了一种查询语句翻译转换的有效方法。

系统特点
    多语种支持:能够支持中、英、日、俄等四种语言的信息检索;并支持英←→汉、日←→汉、俄→汉等语种间的跨语信息检索。
    多检索方式:提供跨语言关键字检索、跨语言分类检索和跨语言相似性检索等多种信息检索手段。
    检索准确率高:跨语检索准确率和召回率都达到90%以上,与传统词典方法相比,效果有明显提高。
    响应速度快:关键词检索响应时间小于1秒,相似性检索响应时间小于10秒;检索结果的翻译速度达到3000单词/分钟以上。
    多语种翻译:集成的机器翻译引擎技术获得国家科技进步一等奖,能自动翻译英←→汉、日←→汉、俄→汉等语种,翻译结果具有很好的可读性。 。

应用场合

    可以应用于以下一些场合:
    网站多语发布和站内搜索:利用“跨语检索系统”的自动翻译功能和跨语检索功能,政府网站或企业网站只需使用一种语言发布信息,其他语种的浏览者使用其熟悉的母语进行信息检索和信息浏览。因此,对于信息发布者来说,节省了大量人力、物力,提高了信息利用率(信息能被更多的潜在用户使用、浏览),降低了营运成本。
    编辑校稿去重:利用“跨语检索系统”的相似性检索功能,杂志编辑可以对来稿进行去重检查,以判别来稿与其他文章的相似性,是否存在抄袭嫌疑。利用跨语言功能,不仅可以发现同语种论文的抄袭现象,还可以发现跨语种论文的抄袭现象。对于期刊杂志出版单位来说,降低了潜在风险,提高了企业声誉。

系统试用

试用系统请点击以下链接:华建跨语言信息检索系统