[发明专利]基于领域知识模型的文本情报关联聚类汇集处理方法有效
申请号: | 201610015796.7 | 申请日: | 2016-01-11 |
公开(公告)号: | CN105677873B | 公开(公告)日: | 2019-03-26 |
发明(设计)人: | 陈怀新;袁伟;张宇;俞鸿波;谢卫 | 申请(专利权)人: | 中国电子科技集团公司第十研究所 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36 |
代理公司: | 成飞(集团)公司专利中心 51121 | 代理人: | 郭纯武 |
地址: | 610036 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 领域 知识 模型 文本 情报 关联 汇集 处理 方法 | ||
本发明提出的一种基于领域知识模型的文本情报关联聚类汇集处理方法,包括如下步骤:搜集文本情报训练集进行提取词干预处理,通过中文命名实体识别与领域字典查询的方式提取情报训练集文本分词序列的特征词汇向量;采用主题图模型学习训练提取目标事件的代表性特征词汇,并计算主题关联归属的权重值;然后根据训练计算的特征词汇的主题关联归属权重值,构建特征词汇集合,建立事件主题词汇模板;再通过中文命名实体识别与领域字典查询的方式提取实时接入文本的分词序列的特征词汇向量;然后计算特征词汇向量与所有目标事件知识模板的相似度距离;根据相似度阈值确定多个文本对同一主题目标事件的关联关系,利用相似度距离排序规则进行分类整编。
技术领域
本发明涉及主题内容的文本关联与分类领域,即采用计算机处理技术实现自动的文本关联分析与聚类汇集处理。
背景技术
文本情报信息分析是综合信息平台的重要组成部分,随着当前情报文本信息获取的方式众多,文本情报来源日趋多样化、信息数据量逐渐庞大,给文本情报分析带来的难度也越来越大,实现文本情报的高效分析和有效分析的途径之一就是要首先进行文本情报关联与分类,将相关性高、关系紧密的文本情报聚合在一起分析。当前,文本情报分析的一般步骤有:(1)多源异构文本情报转化为半结构化的文本。(2)针对文本格式的情报进行关联聚类。(3)针对聚类后的情报文本进行统计归纳分析。其中,文本情报信息关联聚类过程面临的新问题有:
(1)传统情报文本关联方法通常把情报文本作为普通文本,按照普通领域的文本挖掘技术来处理,并没有考虑情报分析领域中存在的非常重要的经验和先验知识,导致情报文本关联结果与实际联系有较大偏差。情报领域知识通常具有重要的指导作用,情报领域中的专有名词在情报文本关联聚类/分类任务中具有非常大的权重,特殊领域专有名词之间的联系通常是特殊的,不具有普遍性,因此传统方法也无法关联出这种联系。
(2)传统文本关联方法通常以统计特征为基础,需要文本中包含有大量词汇,适合处理长文本数据,因为所含的词汇量越大,一方面统计才具有意义,另一方面统计特征较多,特征维数与样本维数不会相差太大,避免出现NP难问题。但情报文本通常属于短文本,例如报道、动向报、简讯等,短文本包含的词汇量较少,词汇的统计特征便没有意义,情报文本中有限的关键词/主题词/领域专有名词才具有重要价值。因此传统基于词汇统计特征的方法并不适合处理文本情报。
(3)传统文本关联方法利用文本词汇特征进行关联计算通常没有考虑文档主题概念层次上的关联关系,而情报分析中通常比较关心情报所描述的事件主题,需要依据情报主题对情报文本进行聚类整编,因此传统方法并没有满足情报分析整编的需求。
基于以上问题,通过引入情报领域知识和先验信息的指导,克服传统情报文本关联方法关联结果偏差大,针对性弱的问题;通过有限的领域专有名词/关键词/主题词建立模板进行主题匹配聚类的方法解决传统基于统计特征的方法需要大量词汇的问题;通过主题图模型提取情报事件主题满足情报分析整编需求。
发明内容
本发明的目的在于解决文本情报关联过程中传统方法未考虑领域知识的指导作用导致关联出的情报偏差较大、针对性较弱的问题;提供一种引入情报领域知识与先验信息下的文本情报内容关联分析,实现情报按目标事件主题类型的关联整合,提高文本情报主题归属类别的正确关联率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第十研究所,未经中国电子科技集团公司第十研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610015796.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种隔音水泥保温板
- 下一篇:一种外墙防渗漏砌块及墙体