[发明专利]基于领域知识模型的文本情报关联聚类汇集处理方法有效
申请号: | 201610015796.7 | 申请日: | 2016-01-11 |
公开(公告)号: | CN105677873B | 公开(公告)日: | 2019-03-26 |
发明(设计)人: | 陈怀新;袁伟;张宇;俞鸿波;谢卫 | 申请(专利权)人: | 中国电子科技集团公司第十研究所 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36 |
代理公司: | 成飞(集团)公司专利中心 51121 | 代理人: | 郭纯武 |
地址: | 610036 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 领域 知识 模型 文本 情报 关联 汇集 处理 方法 | ||
1.一种基于领域知识模型的文本情报关联聚类汇集处理方法,其特征在于包括如下步骤:步骤S1文本情报预处理:搜集文本情报训练集进行分词、词性标注,去停用词,保留名词与动词,提取词干预处理,得到文本情报训练集规范化的文本分词序列;步骤S2特征词汇向量提取:通过中文命名实体识别与领域字典查询的方式提取情报训练集文本分词序列的特征词汇向量;步骤S3事件主题词汇学习:采用主题图模型学习训练提取目标事件的代表性特征词汇,并计算其主题关联归属的权重值;步骤S4事件主题词汇模板建立:根据训练计算的特征词汇的主题关联归属权重值,构建以人物、地点、装备、行为、组织和事件名称代号类概念词汇组成的特征词汇集合,作为表达目标事件知识模板,以及与主题类别归属的索引关系,建立事件主题词汇模板;步骤S5文本情报预处理:对新接入文本情报进行步骤S1中的预处理,得到接入文本情报规范化的文本分词序列;步骤S6特征词汇向量提取:通过中文命名实体识别与领域字典查询的方式提取步骤S5中实时接入文本的分词序列的特征词汇向量;步骤S7主题相似度距离计算比对:计算特征词汇向量与所有目标事件知识模板的相似度距离,并比对上述相似度距离;步骤S8情报主题分类整编:根据相似度阈值确定多个文本对同一主题目标事件的关联关系,利用相似度距离排序规则进行文本情报的分类整编。
2.如权利要求1所述的基于领域知识模型的文本情报关联聚类汇集处理方法,其特征在于:首先搜集开源文本情报文本作为情报文本训练集D,对训练集中每个文本情报文本进行文本分词、词性标注、去停用词,保留名词和动词,形成训练集情报文本的文本词汇序列。
3.如权利要求1所述的基于领域知识模型的文本情报关联聚类汇集处理方法,其特征在于:基于情报文本事件的描述特点,对文本词汇序列dm∈D使用中文命名实体识别与领域字典查询的方式提取时间、地点、人物、装备、组织、行为、名称代号共6类概念的特征词汇,并与领域字典进行语义相似度计算来归一化特征词汇向量Wm=(Wm1,Wm2,...,WmV)。
4.如权利要求1所述的基于领域知识模型的文本情报关联聚类汇集处理方法,其特征在于:建立基于情报文本领域知识的V类概念领域字典,以V类概念词:人物概念词汇集,地理概念词汇集,装备概念词汇集,行为概念词汇集、组织概念词汇集、名称代号概念词汇集词汇集合,建立领域字典Dict={Dict1,Dict2,...,DictV},其中Numv表示第v类概念字典Dictv中的词汇个数,字典中的词汇不能重复。
5.如权利要求1所述的基于领域知识模型的文本情报关联聚类汇集处理方法,其特征在于:利用情报领域字典Dict,将文本词汇序列dm的词汇分别与第v类概念字典进行匹配,匹配时,计算dm中的词汇wi与领域字典中的第v类概念字典Dictv中第j个词汇tj的语义相似度,语义相似度计算公式为:
其中,a为常数,pij为两个词wi,tj在语义树中的语义距离;当dm的词汇wi与第v类概念领域字典Dictv中的词汇tj的语义相似度满足阈值要求时,该词汇wi属于第v类概念特征词汇,按归一化要求,使用领域字典Dictv中的词汇tj代替专有名词实体wi,组成文本情报文本dm的第v类概念特征词汇向量Wmv。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第十研究所,未经中国电子科技集团公司第十研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610015796.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种隔音水泥保温板
- 下一篇:一种外墙防渗漏砌块及墙体