[发明专利]基于主题共现网络和外部知识的主题识别方法、系统及设备有效
申请号: | 202110128830.2 | 申请日: | 2021-01-29 |
公开(公告)号: | CN112800214B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 魏笔凡;祁敬超;刘均;郑庆华;杨祎;罗强;洪振杰;武雨辰 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F40/289;G06N3/08 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 王艾华 |
地址: | 710049 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 主题 网络 外部 知识 识别 方法 系统 设备 | ||
1.基于主题共现网络和外部知识的主题识别方法,其特征在于,具体步骤如下:
使用已有带主题标注的领域知识文本,检测文本中的主题词以及主题子词并以此构建主题共现网络;
使用主题共现网络对带主题标注的领域知识文本进行信息丰富度排序,并以所述排序结合外部知识构建开关模块;
将所述开关模块引入领域知识文本主题识别模型中,对无主题标注的领域知识文本进行主题识别;构建融合外部知识和主题共现网络的开关模块具体如下:
选定基础外部知识;
对于所述主题共现网络,按节点带权度的大小对主题进行权重排序;
对于每个领域知识文本,其信息丰富度由其所包含的所有主题的权重之和计算而来,并由此得到所述领域知识文本的信息丰富度排序,构建融合外部知识和主题共现网络的开关模块,对每个由主题识别模型给出候选主题且拟加入带标注领域知识文本集合的无标注领域知识文本样本进行判断,将样本与对应主题关键词的基础外部知识进行相似性计算,再与该主题下信息丰富度排名高于阈值的前3条领域知识文本进行相似性计算,得到4个相似度值,将所述相似度值与设定阈值进行比较,根据比较结果确定开关是否打开;
输出的4个相似度若存在大于设定阈值的,则打开开关,将该样本标注对应主题后加入带标注领域知识文本集合;否则关闭开关,拒绝将此样本加入带标注领域知识文本集合;
对无主题标注的领域知识文本进行主题识别具体为:首先,用所有带标注领域知识文本训练初始主题识别模型;其次,对每个无标注领域知识文本进行主题识别,对于无标注样本的识别结果,如果主题识别结果置信度大于阈值,则将该结果输入所述开关模块进行判别,若开关模块打开,则将该样本标注对应主题后加入带标注领域知识文本集合;否则拒绝将此样本加入带标注领域知识文本集合;引入开关模块的改进领域知识文本主题识别模型自训练识别包括如下步骤:
获取当前带主题标注的领域知识文本集合和无主题标注的领域知识文本集合;
融合外部知识和共现网络的开关模块;
使用fastText分类模型作为主题识别模型,将当前带主题标注的领域知识文本集合输入主题识别模型训练获得主题识别模型;
从无主题标注的领域知识文本集合中取出一个无主题标注领域知识文本,使用所述主题识别模型对无标注领域知识文本样本进行主题识别,得到与所述无标注领域知识文本样本对应的候选主题,将所述无标注领域知识文本样本与候选主题输入开关模块,若开关打开,将所述无标注领域知识文本样本标注所述候选主题后加入带标注领域知识文本集合,从无标注领域知识文本样本集合中删除该无标注领域知识文本样本;若开关未打开,则拒绝将所述无标注领域知识文本样本加入带标注领域知识文本集合,并放回无标注领域知识文本样本集合,直至无标注领域知识文本样本集合为空集。
2.如权利要求1所述的基于主题共现网络和外部知识的主题识别方法,其特征在于,构建主题共现网络具体如下:
初始化一个主题共现网络,每个主题用一个节点表示,所有节点两两间由一条边相连,边的权重均为0,对于每个带主题标注的领域知识文本,分词后识别并记录每个文本中出现的主题关键词以及主题关键词的子词,记为主题子词,当两个主题关键词或主题关键词的子词同时出现在同一个领域知识文本中时,为连接这两个主题子词各自对应主题的节点的边增加权重,同时记录每条边权重增量的来源领域知识文本;直到所有从已有带主题标注的主题共现关系均在主题共现网络中更新完毕,得到主题共现网络。
3.如权利要求1所述的基于主题共现网络和外部知识的主题识别方法,其特征在于,所述基础外部知识采用维基百科或百度百科中主题关键词对应词条下的摘要部分文本。
4.如权利要求1所述的基于主题共现网络和外部知识的主题识别方法,其特征在于,进行主题识别时,使用fastText分类模型作为主题识别模型,向fastText分类模型中引入所述开关模块。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110128830.2/1.html,转载请声明来源钻瓜专利网。