[发明专利]一种通用实体链接装置及方法有效
申请号: | 201810906847.4 | 申请日: | 2018-08-10 |
公开(公告)号: | CN109165297B | 公开(公告)日: | 2021-12-24 |
发明(设计)人: | 花京华;刘军宁;徐常亮 | 申请(专利权)人: | 新华智云科技有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36 |
代理公司: | 杭州橙知果专利代理事务所(特殊普通合伙) 33261 | 代理人: | 李品 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 通用 实体 链接 装置 方法 | ||
本发明公开了一种通用实体链接装置以及方法,装置包括信息封装模块,用于接收待识别实体,并将待识别实体的上下文信息进行封装形成带有业务场景字段的实体封装,实体链接模组,连接信息封装模块,实体链接模组内设有多个用于链接实体的链接流水线,不同的链接流水线适用于不同的业务场景;流程选择模块,根据实体封装中的业务场景字段选择不同的链接流水线;结果输出模块,连接实体链接模组,用于输出完成实体链接的链接结果。本发明能够同时应用于多种实体链接场景,能够实现实体链接整体流程的抽象化、模块化和流水线式设计,提出的通用结构保证实体链接中模块一次设计多场景使用,提升了实体链接装置的灵活性、可扩展性和可维护性。
技术领域
本发明涉及数据库领域,具体为一种通用实体链接装置及方法。
背景技术
随着互联网的迅猛发展,数字资源到处可见,人们在日常生活中接触最多的信息载体就是文字信息,如新闻、博客或者评论等。同时随着生活节奏的加快,用于对高效阅读的需求更加强烈,数字资源内包含有大量具有明确语义信息的文本实体,如何在文本中高效地获取处实体并加以利用是具有现实意义的事情。
其中,实体链接是利用实体流程中最为关键的步骤之一。但是目前采用的实体链接方法都其本身都具有局限性。目前所使用的实体链接方法一般会存在以下几点不足:
一、部分实体链接方法仅仅只能解决短文本中的实体链接,整体流程相对简单,无法应用在相对复杂的场景下。
二、部分实体链接方法用于解决非结构化的文本中的实体链接,但对于检索或者带有用户信息的实体检索场景由于上下文信息缺乏无法处理。
发明内容
本发明的目的是为了提供一种通用实体链接装置及方法,同时应用于多种实体链接场景,能够实现实体链接整体流程的抽象化、模块化和流水线式设计,提出的通用结构保证实体链接中模块一次设计多场景使用,提升了实体链接装置的灵活性、可扩展性和可维护性。
为了实现上述发明目的,本发明采用了以下技术方案:一种通用实体链接装置,包括
-信息封装模块,用于接收待识别实体,并将待识别实体的上下文信息进行封装形成带有业务场景字段的实体封装,
-实体链接模组,连接信息封装模块,实体链接模组内设有多个用于链接实体的链接流水线,不同的链接流水线适用于不同的业务场景;
-流程选择模块,根据实体封装中的业务场景字段选择不同的链接流水线;
-结果输出模块,连接实体链接模组,用于输出完成实体链接的链接结果。
与现有技术相比,采用了上述技术方案的通用实体链接装置,具有如下有益效果:采用本发明的通用实体链接装置,实现实体链接整体流程的抽象化、模块化和流水线设计,使实体链接业务场景与整体链接流程解耦、整体链接流程与具体模块解耦、各模块具体过程与数据解耦、具体模块之间互相解耦;实体链接模组中包含有适用不同业务场景的链接流水线,能够同时应用于多种实体连接场景,保证实体链接中的模块一次设计多场景使用,提升了实体链接装置的灵活性、可扩展性和可维护性。
优选的,所述实体链接模组中包括每条链接流水线中通用的处理模块,其中包括
-文本预处理模块,用于对待识别实体文本进行NLP过程统一化处理;
-共指消解模块,当实体指称列表中存在同一实体对应多个指称时,用于确定实体指称的唯一指称;
-实体排序模块,用于将待识别实体中同一实体指称对应的候选实体按照业务场景进行打分排序;
-连接判断模块,用于判断实体指称是否和排序打分后打分最高的候选实体进行链接;
-实体输出模块,按所在的业务场景输出不同格式的链接结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新华智云科技有限公司,未经新华智云科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810906847.4/2.html,转载请声明来源钻瓜专利网。