English
 
您现在的位置 首页 > 解决方案 >  多语辅助翻译系统
多语辅助翻译系统解决方案
多语辅助翻译平台工作流程图   
    翻译平台采用流程化、工程化的翻译任务管理方法,文件翻译处理流程如下图所示
    从文件进入系统开始到文件被辅助翻译平台输出总共经过四个阶段的处理:
第一阶段是翻译文件的任务化
    可以将要翻译的文件作为现有工程的一个任务添加到平台中,也可以新建一个翻译工程并以此文件为初始任务。前者能够充分利用现有工程积累的记忆语料,后者则提供了一个新工程的创建方法。文件任务化后,管理人员可以利用工程管理平台对文件进行任务指派和分发。

第二阶段是翻译过程的预处理
    一方面通过工程管理平台提供的术语管理接口,将与文件相关的翻译术语一次批量导入到平台中;另一方面,通过语料对齐平台提供的术语语句对齐接口,从与文件相关的翻译篇章中自动获取翻译记忆,从而构建一个初始的实例模式库。

第三阶段是任务的执行阶段,实现对文件的实际翻译
    这个工程是借助辅助翻译平台来实现的。辅助翻译平台提供了灵活的翻译方法,既可以进行全文或批量翻译也可以进行逐句翻译,翻译修改操作通过平台的跟踪记忆机制自动记录,翻译记忆也在这个工程中逐步学习积累。辅助翻译平台提供灵活的记忆检索接口,提供即时的词典信息查询接口,方便了翻译过程中的信息参考。

第四阶段是任务的提交阶段
    翻译人员通过任务反馈将完成的翻译任务提交到工程管理平台,管理人员通过工程管理平台对所提交的任务进行审核,符合质量标准的任务最终反馈给翻译需求者。 工程化的翻译流程通过工程管理平台检测任务执行情况,协调任务资源,缩短翻译过程不同环节之间的时间延迟,有助于提高翻译效率。 和辅助翻译相关的还有多格式信息流编辑、工程管理平台和语料对齐平台等,这些工具和方案与辅助翻译系统一起形成整体的解决方案。

多格式信息流编辑

    实用的多语言辅助翻译系统编辑的对象是多种格式的信息流文件,系统提出如下三种技术方案,实现文档的所见即所得编辑,提高文件编辑的效率和准确度。

基于ActiveX的编辑器嵌入模型
   
为了实现多格式文件的所见即所得编辑,采用了ActiveX技术。 对于输入待翻译文件,系统首先判断该文件的默认编辑器,比如DOC文件的默认编辑器是WORD软件。接下来,系统创建一个WORD实例(Instance),然后再用这个实例打开待翻译文件,形成一个WORD文档对象,并将该对象嵌入(Embed)到系统的视图里。 通过ActiveX技术的嵌入策略,翻译人员就如同使用相应的编辑器一样使用这个辅助翻译系统。目前我们能够实现所见即所得编辑处理的文件格式包括:WORD、EXCEL、POWERPOINT,分别使用WORD、EXCEL、POWERPOINT软件作为默认编辑软件。
基于格式解析的“所见即所得”模型
   
为了实现对HTML文件的所见即所得编辑,必须通过解析将格式信息和需要翻译的文本信息分开。通过对解析后文件的显示、编辑、翻译及译后浏览和校对实现整个HTML翻译过程的所见即所得。具体翻译流程见下图。

基于COM的组件同步与通信技术
  
我们采用组件化的方式开发系统,组件化的优势主要是两点:第一,便于翻译人员对系统的定制,翻译人员可以根据自己的需要安装组件。例如,如果需要处理WORD文档,就需要安装WORD格式处理组件,如果不需要处理HTML文件,就可以不安装HTML组件;第二,便于系统的升级,升级系统只需要升级相应的组件,而不必要把所有的软件全部更新。 在组件与组件之间,我们采用COM(单机)和DCOM(网络)的通信机制。COM机制提供安全、高效的进程和线程通信支持,不同的COM之间,只需要知道接口就可以彼此访问。只要不改变接口,接口函数的功能升级也不需要通知其它COM,更不需要对其它COM进行重新编译。 为了保持翻译引擎稳定工作,我们将自动翻译引擎设置为进程模型,服务失败将导致该COM组件重新启动,但不会导致调用进程异常,实现了良好的错误隔离特性。

工程管理平台

    无论是辅助翻译还是浏览翻译,用户都需要选取相应的模式库和专业术语库,以便最大限度的提高翻译的准确率。在这一过程中需要对人员、实例模式库、专业术语及翻译工程对象(主要用于辅助翻译平台)进行管理和协调。为实例模式库知识的分布共享和面向工程的协同式多用户翻译的实现提供了支持。
    管理平台主要包含以下几种职能:人员和权限管理、翻译知识管理、专业术语管理、翻译工程对象管理。
人员和权限管理
    翻译人员是进行翻译用户的集合,包括专业翻译人员、库管理人员和系统管理员等。针对不同的级别,用户可以具有不同的操作权限,例如库的创建权限、添加权限、修改权限、删除权限等;经过对人员工作统计和评价,可以对人员的级别进行相应地调整。翻译人员的属性包括姓名、职业、学历、出生年月、登陆密码、个人描述、身份级别等信息;在管理平台中系统管理员可以添加、修改删除各类人员。
    系统的翻译过程可以看作人员、翻译工程、翻译知识的相互作用。因此,人员对象的确立不但明确了用户的权限和级别,方便了用户的管理,增强了系统中知识并发冲突处理的控制能力,而且提高了用户间知识和信息交流的效率。
翻译知识管理
    在管理平台中翻译知识管理主要指实例模式,包括了词、词组、句子、段落和篇章等属性知识,以及通过词法分析、语法分析、语义分析得到的相关知识。在管理平台中主要包括实例模式库的建立、删除及库中实例模式的添加、修改(校对)、查询、删除等其它管理操作。
    此外,实例模式可以按照翻译工程的类别进行分类,以便提高翻译时实例模式的匹配效率。
专业术语管理
    为了提高机器翻译的准确率,翻译系统允许用户添加专业术语。在管理平台中提供两种添加专业术语的方法:批量导入和单个添加。并且在平台中提供术语导出、修改(校对)、查询、删除等管理操作。
    专业术语也可以按照翻译工程的类别进行分类,以便在合适的翻译任务中使用合适的术语。
翻译工程管理
    翻译工程是指翻译内容的集合,其中翻译内容是一个具有共同的主题或领域范畴的文档集合,彼此之间具有较强的相关性。
    翻译工程一般是以文章为单位进行组织:
    工程 := 工程属性|<篇章 | 篇章 | …>|
    篇章 := 篇章属性|<段落 | 段落 | …>
    如果一个工程需要多个翻译人员的参加,翻译工程信息将包括:翻译工程ID,工程等级,工程信息,翻译信息列表,翻译人员组成信息。
    
    系统可以进行多个工程的翻译,各工程之间存在多种联系,其中包括相互的继承关 系(如上图)。采用面向对象方法描述翻译工程对象,不但使工程之间具有更合理的关系,实现对所翻译工程的有效管理,而且能够充分利用已翻译过的工程内容,对翻译知识和及其相关信息进行充分的利用和借鉴。
    翻译工程对象包含了翻译工程的属性和方法:其中,属性包括工程来源、翻译时间、翻译类型、语种、专业、路径等,方法包括存储翻译文件、获取翻译文件信息、工程复杂程度分析等操作。工程对象之间以及工程与其它对象间的信息传递,可以通过对象中的方法进行封装,从而使工程内具有封装性特征。工程对象的建立不但实现了系统知识的组织和共享,而且便于工程的维护和管理。将翻译任务按照工程进行划分,同一工程共享相同的知识库资源。同时,工程对象之间可以继承和复用,相似工程中的知识也具有一定的继承关系,提高了知识的共享性和继承性。

语料对齐平台
  
实例模式库是由大量的双语语料所构成的,即含有两种不同语言之间互译对照信息的语料。那么,如何向实例模式库中添加这些双语语料呢?显然,仅仅依靠工作人员手工添加是行不通的,应主要依靠从大量已经存在的平行双语文本中提取对应的双语片断,并将它们批量添加到双语实例模式库中去。因而,要建设一个大规模高质量的双语实例模式库,其中最重要也是最关键的技术之一就是双语对齐技术(Alignment)。
    采用语料对齐平台,可以将现有的多语言信息抽取到知识库中,这样在以后的翻译中就可以充分利用已经存在的知识信息,提高工作效率和速度。
    多语智能辅助翻译系统解决方案目前已广泛应用到政府、企业、军队、学校和新闻机构,创造了良好的经济效益和社会效益。