[发明专利]一种基于向量空间的产业链知识图谱的构建方法及装置在审
申请号: | 202110323249.6 | 申请日: | 2021-03-25 |
公开(公告)号: | CN112988974A | 公开(公告)日: | 2021-06-18 |
发明(设计)人: | 彭青松 | 申请(专利权)人: | 上海园域信息科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/36;G06F40/216;G06F40/295 |
代理公司: | 南京鼎傲知识产权代理事务所(普通合伙) 32327 | 代理人: | 刘蔼民 |
地址: | 200000 上海市崇明区横沙乡富民*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 向量 空间 产业链 知识 图谱 构建 方法 装置 | ||
1.一种基于向量空间的产业链知识图谱的构建方法,其特征在于:包括如下步骤:
S1、构建向量空间模型(VSM):将产业链知识图谱的三元组抽象成一个向量;
S2、计算每个词项在向量中的权重TF-IDF;
S3、余弦相似度计算;
S4、根据计算得到的值进行相似度计算,值越大表示两个三元组的信息相似度越高,就越有可能发生重名或者多名现象,通过对比产业链知识图谱中的所有三元组完成该知识图谱的知识融合。
2.根据权利要求1所述的一种基于向量空间的产业链知识图谱的构建方法,其特征在于,所述S1中向量由n个Term组成,每个词都有一个权重(Term Weight),不同的词根据自己在文档中的权重来影响文档相关性的重要程度。
3.根据权利要求1所述的一种基于向量空间的产业链知识图谱的构建方法,其特征在于,所述S2中TF-IDF表示TF(词频)和IDF(逆文档频率)的乘积:
其中:TF-IDF=词频(TF)×逆文档频率(IDF):
把产业链的知识图谱看作为一篇文章,词频(Term Frequency,简称TF)表示特征词出现的次数除以该文章总词数:
其中TF表示某个关键词出现的频率;
IDF为所有三元组的数目除以包含该词语的三元组数目的对数值;
其中|D|表示所有文档的数目;
|w∈d|表示包含词语w的文档数目。
TF-IDF计算权重越大表示该词条对这个文本的重要性越大。
4.根据权利要求1所述的一种基于向量空间的产业链知识图谱的构建方法,其特征在于,所述S3中对于某个产业链的知识图谱内容,依次计算得到知识图谱中的三元组D1=(w1,w2,...,wn)共n个关键词的权重;
知识图谱中的另一个三元组D2,采用相同的方法计算出D2=(q1,q2,...,qn),然后计算D1和D2的相似度;
计算两个知识图谱间的相似度通过两个向量的余弦夹角cos来描述。
5.根据权利要求4所述的一种基于向量空间的产业链知识图谱的构建方法,其特征在于,所述S3中D1和D2的相似度公式如下:
其中分子表示两个向量的点乘积,分母表示两个向量的模的积。
6.一种装置,其特征在于,所述装置包括基于向量空间的产业链知识图谱的构建方法所确定的装置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海园域信息科技有限公司,未经上海园域信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110323249.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种防护型可消毒汽车座椅
- 下一篇:一种卸灰和输灰系统用过滤装置