[发明专利]文献知识脉络生成方法、装置及存储介质在审
申请号: | 202110480081.X | 申请日: | 2021-04-30 |
公开(公告)号: | CN113076432A | 公开(公告)日: | 2021-07-06 |
发明(设计)人: | 林桂 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06F16/335;G06F16/38;G06F16/33;G06F40/295 |
代理公司: | 北京鸿元知识产权代理有限公司 11327 | 代理人: | 王迎;袁文婷 |
地址: | 518033 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文献 知识 脉络 生成 方法 装置 存储 介质 | ||
1.一种文献知识脉络生成方法,其特征在于,所述方法包括:
对待检测文献进行标签分类,并获取与所述待检测文献对应的类别标签集;
获取查询信息,并基于所述查询信息及所述类别标签集,获取所述待检测文献中与所述查询信息对应的目标文献范围;
对所述目标文献范围内的目标文献进行实体抽取,以获取所述目标文献中所有的标准实体指称;
基于所述标准实体指称及所述类别标签集,获取与所述目标文献对应的类别标签和标准实体指称集;
基于所述类别标签和所述标准实体指称集,形成与所述查询信息对应的文献知识脉络。
2.如权利要求1所述的文献知识脉络生成方法,其特征在于,所述获取所述目标文献中所有的标准实体指称的步骤包括:
基于预训练的实体识别模型获取与所述目标文献对应的所有实体指称;
基于实体链接技术将所述实体指称链接到标准图谱上,获取与所述实体指称对应的标准实体指称。
3.如权利要求2所述的文献知识脉络生成方法,其特征在于,所述获取与所述实体指称对应的标准实体指称的步骤包括:
基于所述实体指称,获取与所述实体指称对应的同义信息项,并基于所述实体指称及所述同义信息项,确定指称项集合;
基于所述指称项集合,在预设知识库中查找与所述指称项集合对应的候选实体项集合;
分别提取所述指称项集合和所述候选实体项集合的降维特征;
对所述指称项集合和所述候选实体项集合的降维特征进行相似度计算,并根据所述相似度计算得到的分值对所述候选实体项集合中的所有实体进行排序;
基于所述排序的结果确定与所述实体指称对应的实体集合,所述实体集合中的实体作为所述标准实体指称。
4.如权利要求3所述的文献知识脉络生成方法,其特征在于,所述分别提取所述指称项集合和所述候选实体项集合的降维特征包括:
获取所述指称项集合和所述候选实体项集合中的所有实体的Word2Vec值;
基于所述Word2Vec值,获取与所述Word2Vec值对应的所述实体的TF-IDF值;
将所述TF-IDF值作为权重与所述实体的词向量相乘,以获取所述指称项集合和所述候选实体项集合的降维特征。
5.如权利要求1所述的文献知识脉络生成方法,其特征在于,对所述待检测文献进行标签分类,并获取与所述待检测文献对应的类别标签集的步骤包括:
获取带有分类标签的文献数据作为训练数据集;
基于所述训练数据训练MLG-Bert模型,直至所述MLG-Bert模型收敛至预设范围内,形成文献分类模型;
基于所述文献分类模型获取与所述待检测文献对应的类别标签集。
6.如权利要求4所述的文献知识脉络生成方法,其特征在于,所述将所述TF-IDF值作为权重与所述实体的词向量相乘的公式表示为:
doc_emb=∑TF-IDF(wordi)·Word2vec(wordi)
其中,doc_emb表示所述指称项集合/所述候选实体项集合的降维特征,wordi表示所述指称项集合/所述候选实体项集合中的第i个实体,TF-IDF表示所述第i个实体的TF-IDF值,Word2Vec表示所述第i个实体的Word2Vec词向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110480081.X/1.html,转载请声明来源钻瓜专利网。