[发明专利]一种文本实体链接方法、系统、电子设备及存储介质在审
申请号: | 202210169887.1 | 申请日: | 2022-02-23 |
公开(公告)号: | CN114706993A | 公开(公告)日: | 2022-07-05 |
发明(设计)人: | 史源源;黄志苹;王瑞;涂昶 | 申请(专利权)人: | 税友信息技术有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 耿苑 |
地址: | 310053 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 实体 链接 方法 系统 电子设备 存储 介质 | ||
1.一种文本实体链接方法,其特征在于,包括:
获取目标法规的法规文本,从所述法规文本中提取法规标题和法规文号;
根据所述法规标题生成对应的标题字典树;
根据所述法规文号生成对应的文号字典树;
若接收到待处理文本,则利用所述标题字典树和所述文号字典树对所述待处理文本进行实体链接。
2.根据权利要求1所述文本实体链接方法,其特征在于,所述获取目标法规的法规文本,包括:
从目标网站中爬取所述目标法规的法规文本;
从所述目标法规的法规文本中提取法规关联信息,并利用所述法规关联信息迭代爬取所述目标法规的法规文本。
3.根据权利要求1所述文本实体链接方法,其特征在于,在从所述法规文本中提取法规标题和法规文号之后,还包括:
对所述法规标题和所述法规文号进行拓展,得到含义相同的多个法规标题、以及多个含义相同的法规文号;
为所述法规文本设置唯一对应的法规ID,根据所述法规ID与所述法规标题的对应关系生成法规标题字典,根据所述法规ID与所述法规文号的对应关系生成法规文号字典;其中,所述法规标题字典的key为所述法规标题,所述法规标题字典的value为所述法规ID;所述法规文号字典的key为所述法规文号,所述法规文号字典的value为所述法规ID;
相应的,根据所述法规标题生成对应的标题字典树,包括:
根据所述法规标题字典中的法规标题生成对应的所述标题字典树;
相应的,根据所述法规文号生成对应的文号字典树;
根据所述法规文号字典中的法规文号生成对应的所述文号字典树。
4.根据权利要求3所述文本实体链接方法,其特征在于,对所述法规标题和所述法规文号进行拓展,包括:
对所述法规标题中的发布单位进行缩写,得到拓展后的法规标题;和/或,对所述法规标题中的发布单位进行扩写,得到拓展后的法规标题;和/或,对所述法规标题中的符号进行调整,得到拓展后的法规标题;
对所述法规文号进行缩写,得到拓展后的法规文号;和/或,对所述法规文号进行扩写,得到拓展后的法规文号。
5.根据权利要求1所述文本实体链接方法,其特征在于,利用所述标题字典树和所述文号字典树对所述待处理文本进行实体链接,包括:
利用所述标题字典树和所述文号字典树对所述待处理文本进行文本匹配得到文本匹配结果;其中,所述文本匹配结果包括标题文本和/或文号文本,所述标题文本为所述待处理文本中存在于所述标题字典树的文本,所述文号文本为所述待处理文本中存在于所述文号字典树的文本;
根据所述文本匹配结果对所述待处理文本进行实体链接。
6.根据权利要求5所述文本实体链接方法,其特征在于,根据所述文本匹配结果对所述待处理文本进行实体链接,包括:
对所述待处理文本中符合预设规则的所述标题文本和所述文号文本进行实体链接;其中,所述预设规则为所述标题文本和所述文号文本之间不存在间隔,或,所述标题文本和所述文号文本之间只存在书名号和/或括号;
和/或,将所述待处理文本中不符合所述预设规则的标题文本设置为无文号标题文本,查询所述待处理文本中距离所述无文号标题文本最近的时间文本,根据所述时间文本和所述无文号标题文本进行实体链接。
7.根据权利要求1至6任一项所述文本实体链接方法,其特征在于,利用所述标题字典树和所述文号字典树对所述待处理文本进行实体链接,包括:
利用所述标题字典树和所述文号字典树确定所述待处理文本中的实体;所述实体包括法规标题和法规文号的文本;
根据所述实体与所述法规文本的对应关系对所述待处理文本进行实体链接,以使所述实体被点击后跳转至对应的法规文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于税友信息技术有限公司,未经税友信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210169887.1/1.html,转载请声明来源钻瓜专利网。