[发明专利]一种人才信息数据库消歧系统在审
申请号: | 202011369020.8 | 申请日: | 2020-11-30 |
公开(公告)号: | CN112487825A | 公开(公告)日: | 2021-03-12 |
发明(设计)人: | 张日崇;刘德志;袁红亮;胡志元 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06K9/62;G06Q10/10 |
代理公司: | 北京中创阳光知识产权代理有限责任公司 11003 | 代理人: | 傅尚新 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 人才 信息 数据库 系统 | ||
本发明通过人工智能领域的方法,实现了一种人才信息数据库消歧系统,系统结构包括人才信息输入模块、基于特征建模的同名消歧方法模块、基于成果关系网络的成果纠错方法模块、通用的同名消歧集成模型和输出模块,基于特征建模的同名消歧方法模块输入基本信息,并将基本信息分为唯一标志、重要信息、补充信息,基于成果关系网络的成果纠错方法模块从基于特征建模的同名消歧方法模块的输出信息中输入对应人才的所述成果信息,通过包含成果关系网络构建、成果关系网络节点表示以及聚类纠错步骤的纠错流程实现纠错。最终实现一个采用一种结合人才基本属性信息以及成果合作关系的分层聚类的方法来有效的解决人才信息数据库中的大量同名问题的系统。
技术领域
本发明涉及自然语言处理领域,尤其涉及一种人才信息数据库消歧系统。
背景技术
当今世界,国与国之间的竞争愈发激烈,归根结底是科学技术的竞争。众所周知,科学技术是第一生产力,其中人才是最活跃、关键和最宝贵的因素,人才贯穿科技活动的始终,最具创造力和活动力,影响着国家科技发展的方方面面。人才资源作为科技资源的核心,具有重要战略价值。当前国内外针对人才资源已经展开了大量的研究,主要聚焦人才的教育、引入、管理和服务,人才大数据分析,人才资源流动和价值实现等。为了更好地管理人才,很多国家、地方或者机构维护着各自封闭或通过接口对外开发的半封闭人才信息数据库。
其中同名人才之间的消歧问题是人才信息数据库中面临最普遍的问题,同名消歧问题本质即为多个同名人才之间的数据冗余,没有进行合理的融合。未经消歧的同名人才的大量存在进而会导致数据库存在冗余性、不精准性等严重数据问题。人名歧义其实是多个人物具有相同的人名的现象,这会在人名指代上造成歧义。然而,在现实生活中,人名歧义现象十分普遍。人名歧义现象并非一个特殊国家存在的问题,而是全世界普遍存在的问题。根据United States Census Bureau的统计结果,大约有10亿人共用了9万个不同的名字;在中国全国公民身份证号码查询服务中心的重名查询系统在2014年底公布了“中国重名最多的50个姓名”,其中全国共有299025人叫“张伟”,重名人数接近30万。
人才信息数据库除了人才的基本信息外还存在大量的成果信息。人才所发表的论文、专利和人才获得的项目、奖项,这些人才的成果信息标识人才的科研学术能力,其也是高端人才的所共有的特征。但是由于成果广泛分布在各个学术资源网站,导致数据来源复杂、格式多样,例如国内的学者发表英文论文时的作者名称,用拼音简写或者别名,就会导致大量的成果信息在录入数据库的过程中会被错误分配到同名不同人的学者的名下。从而导致学者的成果信息集中会出现较多的他人成果信息,这极大的降低了人才的成果信息的数据质量。其一:混杂的成果信息集会直接导致人才的成果的相关分析结果失真;其二:混杂的成果信息集也会给后续的人才同消歧过程带来大量的噪音,导致消歧结果准确率降低。
无论是同名人才之间的重复,还是人才成果信息混杂其本质均属于同名消歧的范畴。根据同名消歧方法进行划分,可以分为基于链接和基于聚类的人名消歧。
1.基于聚类的消歧系统
当目标实体列表未给定时,以聚类的方式对人名指称项进行消歧。对于每一个姓名指称项,抽取文章的上下文特征形成特征向量,然后计算文章间的相似度,最后采用聚类算法对指称项下涉及到的所有样本聚类,使得每个簇都指向同一个目标实体。相似度计算方式有:基于表层特征的相似度计算,如余弦公式、Jaccard、距离公式等;基于有监督的机器学习方法,对已经标注的训练集进行训练后得出的相似度函数表示;基于社会化网络,使用图的方法,利用社会网络中的社会关系来计算样本之间的相似度。最常用的聚类技术有:基于划分的聚类(如K-means)、层次聚类(如HAC)、基于密度的聚类(如DBSCAN)、谱聚类等。
2.基于实体链接的消歧系统
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011369020.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高灵敏精确检测的生物传感器
- 下一篇:一种液相色谱仪高压恒流泵的柱塞组件
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置