[发明专利]基于搜索引擎的多源人物属性融合方法有效
申请号: | 202010867732.6 | 申请日: | 2020-08-26 |
公开(公告)号: | CN111814027B | 公开(公告)日: | 2023-03-21 |
发明(设计)人: | 于富财;叶浩维;胡光岷 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/36;G06F40/242;G06F40/30 |
代理公司: | 成都虹盛汇泉专利代理有限公司 51268 | 代理人: | 王伟 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 搜索引擎 人物属性 融合 方法 | ||
1.一种基于搜索引擎的多源人物属性融合方法,其特征在于,包括:
S1、对两个目标属性集进行属性对齐处理;若存在对应的属性,则记为一个属性对,并执行步骤S2,否则结束;
S2、对每一个有对应关系的属性对计算置信度;步骤S2所述置信度基于搜索引擎页面计数进行计算,具体计算式为:
M=f(C)
其中,f(C,vp)为搜索“人物C”和“属性值vp”的结果页面计数,f(C,vp,vq)为搜索“人物C”和“属性值vp”和“属性值vq”结果页面计数,max[]表示求最大值,min[]表示求最小值;
或,
步骤S2所述置信度基于片段内容进行计算,具体计算式为:
其中,f(vq@(C,vp))指查询人物C和属性名vp的结果片段中,vq出现的次数;f(C,vp)为查询人物C和属性名vp的结果片段总数;μ表示所取的f(C,vp)片段总数的比例,μ∈(0,1];q和p为调节因子;
或,
步骤S2所述置信度采用下式计算:
Con(Tp,Tq,C)=β×TCDC(Tp,Tq,C)+(1-β)(1-NGDC(Tp,Tq,C))
其中,β为权重,N为搜索引擎索引的总页面数,α为可调参数,TCDC(Tp,Tq,C)表示基于双重检查的人物属性对置信度,NGDC(Tp,Tq,C)表示基于人名和两个属性的共现页面计数的人物属性对置信度;
S3、计算置信度的平均值;若平均值大于阈值,则两个目标属性集属于同一目标人物,否则两个目标属性集不属于同一目标人物。
2.根据权利要求1所述的一种基于搜索引擎的多源人物属性融合方法,其特征在于,步骤S1包括以下分步骤:
S11、建立高置信度属性词典;
S12、基于字符串编辑距离来进行属性名配对;
S13、对于余下的属性名,基于逐点共有信息进行属性对齐。
3.根据权利要求1所述的一种基于搜索引擎的多源人物属性融合方法,其特征在于,步骤S3所述计算置信度的平均值的公式为:
其中,Con(P,Q)为P、Q同属于C的置信度,n为对齐的属性对总数,Con(Tp,Tq,C)为Tp、Tq同属于C的置信度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010867732.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种清热利湿方及其制备方法和应用
- 下一篇:一种用于水蛭的过水养殖装置