[发明专利]基于主题共现网络和外部知识的主题识别方法、系统及设备有效

专利信息
申请号: 202110128830.2 申请日: 2021-01-29
公开(公告)号: CN112800214B 公开(公告)日: 2023-04-18
发明(设计)人: 魏笔凡;祁敬超;刘均;郑庆华;杨祎;罗强;洪振杰;武雨辰 申请(专利权)人: 西安交通大学
主分类号: G06F16/34 分类号: G06F16/34;G06F40/289;G06N3/08
代理公司: 西安通大专利代理有限责任公司 61200 代理人: 王艾华
地址: 710049 *** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 主题 网络 外部 知识 识别 方法 系统 设备
【说明书】:

本发明公开了一种基于主题共现网络和外部知识的主题识别方法,方法具体为:基于标注数据的主题共现网络构建:使用已有带主题标注的领域知识文本,检测文本中的主题子词并以此构建主题共现网络;融合外部知识和主题共现网络的开关模块构建:使用共现网络对带主题标注的领域知识文本进行信息丰富度排序,并以此排序结合外部知识构成开关模块;引入开关模块的改进领域知识文本主题识别模型自训练:使用自训练方法训练领域知识文本主题识别模型,尽可能使用无主题标注的领域知识文本的信息,防止自训练不加选择地学习无主题标注领域知识文本导致泛化性能下降;更充分更高效地利用有限语料信息,提升领域知识文本主题识别模型的性能。

技术领域

本发明属于文本识别技术领域,尤其涉及基于主题共现网络和外部知识的主题识别方法、系统及设备。

背景技术

知识总量在互联网时代的爆炸式增长使得知识碎片化问题日益凸显,由于缺乏统一的知识组织管理形式,用户通常需要花费较多时间在海量的碎片化知识中寻找有价值的领域知识文本进行学习,信息获取效率偏低。将领域知识文本按照其描述的知识主题进行分类存储,能够提高检索和学习的效率,同时为其它领域知识相关的下游应用提供技术支持。

领域知识文本通常包含较多领域专业术语,来自不同领域的知识文本的描述对象和表达方式有着很大的区别。为领域知识文本标注主题需要相关领域的专家或经充分培训的标注人员人工参与,在领域不断增多时,人工标注的成本将成倍增长,因此带主题标注的领域知识文本样本数量有限,同时扩充成本较高;而在特征海量、样本有限的情况下,对于领域知识文本的主题识别任务,传统机器学习方法性能表现难以满足工程应用需求。因此需要人工参与数据标注尽可能少、主题识别效率和准确率较高的方法。

现有技术中与本发明密切相关的专利,分别是:

1、一种基于图数据库的知识森林构建方法,专利号:CN201810068490.7

2、一种半监督分类预测方法,专利号:CN 201910188479.9

3、一种基于词共现的汉语实体关系提取的控制方法及装置,专利号:CN201110001355.9;专利1统计每条文本包含的主题关键词个数,寻找其包含最多的主题关键词作为文本主题;专利2通过寻找类别中心和随机采样方法实现降低数据冗余度两个措施实现半监督分类预测,专利1和专利2均没有进一步挖掘数据共现网络等信息。专利3使用的词共现关系为全词匹配,没有考虑领域知识中的子词特性。

发明内容

为了解决现有技术的问题,本发明提供一种基于主题共现网络和外部知识的主题识别方法,故以主题为节点,以主题子词在领域知识文本中的共现频率为边权重构建主题共现网络,可以更好地利用已有样本,提升领域知识文本主题识别模型的性能,可以更充分更高效地利用有限语料信息。

为达到以上目的,本发明采用如下技术方案:基于主题共现网络和外部知识的主题识别方法,具体步骤如下:

使用已有带主题标注的领域知识文本,检测文本中的主题词以及主题子词并以此构建主题共现网络;

使用主题共现网络对带主题标注的领域知识文本进行信息丰富度排序,并以所述排序结合外部知识构建开关模块;

将所述开关模块引入领域知识文本主题识别模型中,对无主题标注的领域知识文本进行主题识别。

构建主题共现网络具体如下:

首先,初始化一个主题共现网络,每个主题用一个节点表示,所有节点两两间由一条边相连,边的权重均为0,对于每个带主题标注的领域知识文本,分词后识别并记录每个文本中出现的主题关键词以及主题关键词的子词,记为主题子词,当两个主题关键词或主题关键词的子词同时出现在同一个领域知识文本中时,为连接这两个主题子词各自对应主题的节点的边增加权重,同时记录每条边权重增量的来源领域知识文本;直到所有从已有带主题标注的主题共现关系均在主题共现网络中更新完毕,得到主题共现网络。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110128830.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top