[发明专利]一种文本实体链接方法、系统、电子设备及存储介质在审
申请号: | 202210169887.1 | 申请日: | 2022-02-23 |
公开(公告)号: | CN114706993A | 公开(公告)日: | 2022-07-05 |
发明(设计)人: | 史源源;黄志苹;王瑞;涂昶 | 申请(专利权)人: | 税友信息技术有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 耿苑 |
地址: | 310053 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 实体 链接 方法 系统 电子设备 存储 介质 | ||
本申请公开了一种文本实体链接方法,包括:获取目标法规的法规文本,从所述法规文本中提取法规标题和法规文号;根据所述法规标题生成对应的标题字典树;根据所述法规文号生成对应的文号字典树;若接收到待处理文本,则利用所述标题字典树和所述文号字典树对所述待处理文本进行实体链接。本申请能够提高对法规文本进行实体链接的效率和准确率。本申请还公开了一种文本实体链接系统、一种存储介质及一种电子设备,具有以上有益效果。
技术领域
本申请涉及文本处理技术领域,特别涉及一种文本实体链接方法、系统、一种电子设备及一种存储介质。
背景技术
实体链接是指将文本中的Mention(提及)链接到Knowledge Graph(知识图谱)中的entity(实体)的任务。Knowledge Graph可以理解为一个大规模的语义网络,旨在描述客观世界的概念、实体以及之间的关系,有时候也可以狭义地理解为知识库。Entity是知识图谱的基本单元,Mention指文本中表达实体的语言片段。
法规文本数量繁多且更新较快,仅靠关键词匹配和标点符号(如书名号、括号等)匹配实现实体链接的工作量较大、准确度较低。
因此,如何提高对法规文本进行实体链接的效率和准确率是本领域技术人员目前需要解决的技术问题。
发明内容
本申请的目的是提供一种文本实体链接方法、一种文本实体链接系统、一种存储介质及一种电子设备,能够提高对法规文本进行实体链接的效率和准确率。
为解决上述技术问题,本申请提供一种文本实体链接方法,该文本实体链接方法包括:
获取目标法规的法规文本,从所述法规文本中提取法规标题和法规文号;
根据所述法规标题生成对应的标题字典树;
根据所述法规文号生成对应的文号字典树;
若接收到待处理文本,则利用所述标题字典树和所述文号字典树对所述待处理文本进行实体链接。
可选的,获取目标法规的法规文本,包括:
从目标网站中爬取所述目标法规的法规文本;
从所述目标法规的法规文本中提取法规关联信息,并利用所述法规关联信息迭代爬取所述目标法规的法规文本。
可选的,在从所述法规文本中提取法规标题和法规文号之后,还包括:
对所述法规标题和所述法规文号进行拓展,得到含义相同的多个法规标题、以及多个含义相同的法规文号;
为所述法规文本设置唯一对应的法规ID,根据所述法规ID与所述法规标题的对应关系生成法规标题字典,根据所述法规ID与所述法规文号的对应关系生成法规文号字典;其中,所述法规标题字典的key为所述法规标题,所述法规标题字典的value为所述法规ID;所述法规文号字典的key为所述法规文号,所述法规文号字典的value为所述法规ID;
相应的,根据所述法规标题生成对应的标题字典树,包括:
根据所述法规标题字典中的法规标题生成对应的所述标题字典树;
相应的,根据所述法规文号生成对应的文号字典树;
根据所述法规文号字典中的法规文号生成对应的所述文号字典树。
可选的,对所述法规标题和所述法规文号进行拓展,包括:
对所述法规标题中的发布单位进行缩写,得到拓展后的法规标题;和/或,对所述法规标题中的发布单位进行扩写,得到拓展后的法规标题;和/或,对所述法规标题中的符号进行调整,得到拓展后的法规标题;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于税友信息技术有限公司,未经税友信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210169887.1/2.html,转载请声明来源钻瓜专利网。