[发明专利]基于领域知识模型的文本情报关联聚类汇集处理方法有效
申请号: | 201610015796.7 | 申请日: | 2016-01-11 |
公开(公告)号: | CN105677873B | 公开(公告)日: | 2019-03-26 |
发明(设计)人: | 陈怀新;袁伟;张宇;俞鸿波;谢卫 | 申请(专利权)人: | 中国电子科技集团公司第十研究所 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36 |
代理公司: | 成飞(集团)公司专利中心 51121 | 代理人: | 郭纯武 |
地址: | 610036 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出的一种基于领域知识模型的文本情报关联聚类汇集处理方法,包括如下步骤:搜集文本情报训练集进行提取词干预处理,通过中文命名实体识别与领域字典查询的方式提取情报训练集文本分词序列的特征词汇向量;采用主题图模型学习训练提取目标事件的代表性特征词汇,并计算主题关联归属的权重值;然后根据训练计算的特征词汇的主题关联归属权重值,构建特征词汇集合,建立事件主题词汇模板;再通过中文命名实体识别与领域字典查询的方式提取实时接入文本的分词序列的特征词汇向量;然后计算特征词汇向量与所有目标事件知识模板的相似度距离;根据相似度阈值确定多个文本对同一主题目标事件的关联关系,利用相似度距离排序规则进行分类整编。 | ||
搜索关键词: | 基于 领域 知识 模型 文本 情报 关联 汇集 处理 方法 | ||
【主权项】:
1.一种基于领域知识模型的文本情报关联聚类汇集处理方法,其特征在于包括如下步骤:步骤S1文本情报预处理:搜集文本情报训练集进行分词、词性标注,去停用词,保留名词与动词,提取词干预处理,得到文本情报训练集规范化的文本分词序列;步骤S2特征词汇向量提取:通过中文命名实体识别与领域字典查询的方式提取情报训练集文本分词序列的特征词汇向量;步骤S3事件主题词汇学习:采用主题图模型学习训练提取目标事件的代表性特征词汇,并计算其主题关联归属的权重值;步骤S4事件主题词汇模板建立:根据训练计算的特征词汇的主题关联归属权重值,构建以人物、地点、装备、行为、组织和事件名称代号类概念词汇组成的特征词汇集合,作为表达目标事件知识模板,以及与主题类别归属的索引关系,建立事件主题词汇模板;步骤S5文本情报预处理:对新接入文本情报进行步骤S1中的预处理,得到接入文本情报规范化的文本分词序列;步骤S6特征词汇向量提取:通过中文命名实体识别与领域字典查询的方式提取步骤S5中实时接入文本的分词序列的特征词汇向量;步骤S7主题相似度距离计算比对:计算特征词汇向量与所有目标事件知识模板的相似度距离,并比对上述相似度距离;步骤S8情报主题分类整编:根据相似度阈值确定多个文本对同一主题目标事件的关联关系,利用相似度距离排序规则进行文本情报的分类整编。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第十研究所,未经中国电子科技集团公司第十研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610015796.7/,转载请声明来源钻瓜专利网。
- 上一篇:一种隔音水泥保温板
- 下一篇:一种外墙防渗漏砌块及墙体