[发明专利]一种联合知识图谱的热度排序方法及装置在审
申请号: | 202210612426.7 | 申请日: | 2022-05-31 |
公开(公告)号: | CN114969371A | 公开(公告)日: | 2022-08-30 |
发明(设计)人: | 于凯;王路路;蔡日辉;彭钰婷;刘佳;张鹏 | 申请(专利权)人: | 北京智谱华章科技有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/383;G06F16/33;G06F40/216;G06F40/279 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 罗岚 |
地址: | 100084 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 联合 知识 图谱 热度 排序 方法 装置 | ||
1.一种联合知识图谱的热度排序方法,其特征在于,包括:
获取预设数量的论文文献,对所述论文文献进行实体识别,从所述论文文献中抽取出目标实体;
从所述目标实体中抽取出关系属性和实体属性,并根据所述目标实体的关系属性和实体属性,构建知识图谱;
获取包含所述目标实体的评论文本,根据所述评论文本中包含的实体关系,与所述知识图谱构建实体链接;
根据链接到的所述目标实体与所述评论文本的词频-逆文本频率指数值确定实体热度值,根据所述实体热度值对所述知识图谱中目标实体的热度属性进行更新。
2.根据权利要求1所述的方法,其特征在于,所述对所述论文文献进行实体识别,从所述论文文献中抽取出目标实体,包括:
从所述论文文献中提取文献内容,并将所述文献内容转换为预设格式的文献内容;
对所述预设格式的文献内容进行分句处理,得到所述文献内容对应的内容片段,对所述内容片段中的内容进行标注,得到所述内容片段对应的标注文本;
根据所述标注文本生成训练集,根据所述训练集对第一模型进行训练,根据训练后所述第一模型的第一预测结果获取所述目标实体。
3.根据权利要求1所述的方法,其特征在于,所述从所述目标实体中抽取出关系属性和实体属性,并根据所述目标实体的关系属性和实体属性,构建知识图谱,包括:
根据所述目标实体的三元组训练第二模型,并根据训练后的所述第二模型的第二预测结果获取所述关系属性;
抽取所述目标实体的实体属性值和语料文本,将所述实体属性值和语料文本输入分类器,获取所述实体属性;
将所述目标实体、所述关系属性和所述实体属性整理为元组形式并存入图数据库,以构建知识图谱。
4.根据权利要求1所述的方法,其特征在于,所述获取包含所述目标实体的评论文本,根据所述评论文本中包含的实体关系,与所述知识图谱构建实体链接,包括:
将实体字典与所述包含所述目标实体的评论文本转换为向量,并获取候选实体的相似度,公式化如下:
其中,xi为实体字典转换后的向量,yi为所述包含所述目标实体的评论文本转换后的向量;
根据所述候选实体的提及比例和所述候选实体的相似度综合相乘的规则,对所述候选实体进行排序,选出排名最高的候选实体与所述图数据库中的所述知识图谱构建实体链接。
5.根据权利要求1所述的方法,其特征在于,在所述根据链接到的所述目标实体与所述评论文本的词频-逆文本频率指数值之前,还包括:
计算词频TF值,即所述目标实体在所述评论文本中出现的频率,公式化如下:
其中,ni,j是所述目标实体在文件dj中出现的次数,∑knk,j为文件dj中所有词汇出现的次数总和;
计算逆文本频率IDF值,公式化如下:
其中,|D|是语料库中的文件总数,|{j:ti∈dj}|表示包含所述目标实体ti的文件数目;
计算词频-逆文本频率指数值TF-IDF值,公式化如下:
TF-IDF=TF*IDF。
6.根据权利要求5所述的方法,其特征在于,所述确定实体热度值,包括:
获取所述目标实体点击量与用户评论量,并根据所述实体点击量与用户评论量获取目标实体本身热度值;
根据评论文本接口获得文本评论时间,根据所述文本评论时间获取更新时间;
根据所述TF-IDF值,目标实体本身热度值与更新时间,获取实体热度值,公式化如下:
其中,H为所述实体热度值,W为所述目标实体本身热度值,T为所述更新时间,G为重力权重指数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京智谱华章科技有限公司,未经北京智谱华章科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210612426.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种贴合式蓝藻治理用打捞设备
- 下一篇:半导体装置