English
 
您现在的位置 首页 > 解决方案 >  多语情报信息分类处理平台
多语情报信息分类处理平台解决方案
自动分类与前端情报获取
  
网络环境中情报的获取是信息分类首先需要解决的问题。只有能够相关的情报,才有可能对情报进行进一步的加工和挖掘,为决策服务。而信息分类,则是下一步对网络信息等进行存储检索、内容分析、加工处理的前提和基础,因此多语情报信息分类处理是信息处理的重要环节和基础性工作。
     目前情报获取的方式有手工收集、搜索引擎、元搜索引擎、网络爬虫等技术。 我们在解决方案中,不但提供单机静态网站内容的获取功能,而且在动态网页获取方面,解决了基于CGI的动态网页的获取问题,并为解决基于Java Script的动态网页积累了丰富经验。 具有如下特点:
元搜索引擎技术和爬虫技术的协同工作
    针对元搜索和爬虫各自的不足,将两种技术集成到同一个系统中。利用元搜索的宽度优势弥补爬虫在宽度方面的不足,利用爬虫的深度和及时性优势弥补元搜索相应的不足。
    针对单机的处理能力,预设目前最好的两个搜索引擎:Google和Baidu,支持检索结果的重新排序。
辅助文档相似度检索
   
在使用元搜索引擎的时候,用户有时并不清楚应该使用什么关键字去启动搜索引擎,但是却有相关的文档。此时需要一种机制,能够根据背景语料自动从现有文档中提取出关键字,并提交给元搜索引擎使用。
动态网页和论坛的获取
   
针对爬虫在动态网页和论坛获取上的不足,进行改进,实现对某些重要论坛的获取功能。以及实现对常见Java脚本的解析能力。

情报自动分类引擎
  
情报自动分类即是对未知类别的情报进行处理,将它们归类到预定义的类别中。随着电子文档的迅速增长,情报自动分类吸引了机器学习领域和信息检索邻域众多学者的研究兴趣。多种方法被用于文本分类的实验和应用,包括贝页斯网络、人工神经网络、KNN、支持向量机等。
    与很多其它技术一样,情报分类技术并不具有普适性:不存在一种算法适合于所有的用户和所有的应用环境。对于不同的用户和不同的需求,对分类准确率和分类速度的要求都不相同。而对于不同的应用环境,不同类别的文本具有不同的特点,具有不同的特征分布和不同的可分性。需要针对不同的应用环境和用户的具体需求选用不同的分类方法,以及采用不同的特征库以达到最好的分类效果。
    在自然语言处理领域进行了多年的研究与开发基础上,积累了一大批相关技术,围绕文本分类/聚类技术及其应用,拥有多种具有自主知识产权核心算法,可提供完善的多语情报信息分类处理平台。简单介绍如下:
语义KNN算法
   
KNN是一种经典的模式识别算法,具有思想直观,实现简单的特点,而且具有很高的分类准确率,且不需要进行复杂的训练。其缺点在于分类速度过慢,不适用与对速度要求较高的应用环境。工程中心对KNN做了大量的优化,采用数量远小于训练样本数量的语义中心做为分类的依据,在不损失分类准确率的前提下使得分类速度得到数十倍的提升。
语义SVM算法
   
在特征空间中,使用类别的语义中心代替原始训练样本,进而进行训练,并将结果SVM用于分类。该算法克服了SVM分类速度慢的缺点,提高了SVM的可用性,并且具有较高的分类速度。缺点在于分类模型的训练和分类速度仍然较慢,且宜用于两类分类问题,用于多类分类时需要进行组合,降低分类效率。
广义互信息算法
   
对于待分类文章向量,通过计算它与当前所有类别的广义互信息以判断其所属的类别。由于采用广义互信息,能够很好的支持多类的应用环境,并且具有很高的分类速度和比“空间向量距离算法”更高的分类准确,容易进行增量学习。

情报自动分类的主要实现
系统功能模块
   
分类程序的运行系统需要进行文件格式解析、分词、特征提取与权重计算、文本表示等技术。这些技术在已经实现,在实际应用中可以直接使用这些研究成果。 我们的解决方案中,情报自动分类处理主要包含如下内容:
分类模型管理
    采用语义KNN算法之后,分类模型的管理就是对语义中心集合的调整过程。分了模型的管理有两个方面。其一是在系统运行前的准备阶段,根据用户指定的分类训练样本目录结构建立起分类体系,并自动完成模型的创建。其二是在系统运行过程中,由具有权限的用户不断的添加和删除样本,实现分类模型的增量和减量学习能力。
与基于关键字分类算法的结合
    在以下两种情况下,依据关键字的分类功能特别有用:
    在系统运行初期,没有足够的训练语料以训练分类模型。此时可以依靠关键字进行分类,进行训练样本的积累。
    在类别之间可分性差,且依靠分类模型进行分类准确率较低时,依靠关键字分类可以取得很好的效果。
    另外,根据关键字分类还具有很高的效率,具有速度优势。
用户情报库管理
    随着系统的运行,用户搜集到越来越多自己感兴趣的情报,并希望能够对它进行分类管理。
    用户情报管理提供这种管理功能。提供自定义类别与当前分类体系同步功能和自定义类别管理。提供情报的添加和删除功能。并能提供备份功能。
系统处理流程
 
    系统由分类结构维护和自动分类两大部分,其中自动分类包括:与Webstripper的连接器—日志分析模块、文件格式分析模块、自动分类模块、数据库访问模块等,分类结构维护包括:分类学习模块、分类样本管理、分类树构建等模块组成。
    系统流程如下:
    首先,系统初始化构建分类结构树:由用户准备好分类样本,由分类学习模块导入并建立初始的分类树。
    分析webstripper网络信息获取系统的日志文件,分析出其下载的文件路径,逐一进行文件格式分析、文本提取过虑。
    对每个文件进行分类,同时该文件路径自动入库。
人工维护分类样本库,或调整分类结果,对分类模型进行学习,进一步提高分类的准确率。