[发明专利]同名人物的识别处理方法及处理装置在审
申请号: | 202010167476.X | 申请日: | 2020-03-11 |
公开(公告)号: | CN111428503A | 公开(公告)日: | 2020-07-17 |
发明(设计)人: | 吴信东;刘古刘;李磊 | 申请(专利权)人: | 合肥工业大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F16/36;G06K9/62 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 赵囡囡 |
地址: | 230009 *** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 同名 人物 识别 处理 方法 装置 | ||
本发明公开了一种同名人物的识别处理方法及处理装置。其中,该方法包括:获取与目标人物具有相同姓名的人物集合以及每一个人物的描述信息;从描述信息中提取包含时间上下文的人物属性和事件信息;计算人物集合中任意两个人物的属性相似度和事件信息相似度;至少基于属性相似度和事件信息相似度确定人物集合中任意两个人物是否为同一人物。本发明解决了由于人物属性及关系信息不充分造成的识别同名人物是否指代同一实体不准确的技术问题。
技术领域
本发明涉及人物分类领域,具体而言,涉及一种同名人物的识别处理方法及处理装置。
背景技术
知识图谱又称为科学知识图谱,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系,在各个领域得到了广泛的应用,尤其在同名人物识别领域,往往利用原有的知识图谱进行人物的相似度判断,但这种方法往往忽略了时间变迁导致的人物属性的表更对人物相似度的影响,进而在判断同名人物是够指代同一实体时,存在识别不准确的问题。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种同名人物的识别处理方法及处理装置,以至少解决由于人物属性及关系信息不充分造成的识别同名人物是否指代同一实体不准确的技术问题。
根据本发明实施例的一个方面,提供了一种同名人物的识别处理方法,包括:获取与目标人物具有相同姓名的人物集合以及每一个人物的描述信息;从描述信息中提取包含时间上下文的人物属性和事件信息;计算人物集合中任意两个人物的属性相似度和事件信息相似度;至少基于属性相似度和事件信息相似度确定人物集合中任意两个人物是否为同一人物。
可选地,获取与目标人物具有相同姓名的人物集合以及每一个人物的描述信息,包括:从知识图谱数据库中提取具有相同姓名的人物集合,以及每个任务集合中获取每一个人物的描述信息。
可选地,至少基于属性相似度和事件信息相似度确定人物集合中任意两个人物是否为同一人物,包括:获取目标人物所在的知识图谱中的目标关系相似度;基于属性相似度、事件信息相似度和目标关系相似度确定人物集合中任意两个人物是否为同一实体。
可选地,目标关系相似度通过以下方式确定:对任意两个人物的亲属关系相似度与社交关系相似度进行加权求和,得到目标关系相似度;其中,亲属关系相似度权重系数人物的社交关系相似度。
可选地,基于属性相似度、事件信息相似度和目标关系相似度确定人物集合中任意两个人物是否为同一实体,包括:对属性相似度、事件信息相似度和目标关系相似度进行加权求和,得到目标相似度;比较目标相似度与设定阈值,若目标相似度大于或等于设定阈值,则确定任意两个人物属于同一实体。
可选地,获取任意两个人物在目标人物所在的知识图谱中的目标关系相似度之前,还包括:获取现有的每个人物的关系列表其中,rsubject表示关系主体,rname表示关系名,robject表示关系客体。
可选地,从描述信息中提取包含时间上下文的人物属性和事件信息,包括:对于人物pi,采用时间正则表达式提取描述信息中的时间序列将人物pi描述信息按时间序列Ti分段,得到分段文本序列W={W1,W2,...Wn},其中分段文本bk表示文本、表示时间标签,k=1,2,3,…,n。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010167476.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高精度的板材折弯机
- 下一篇:脊柱侧弯测量椅