[发明专利]目标文本的匹配方法和装置、存储介质及电子设备有效

专利信息
申请号: 202010525837.3 申请日: 2020-06-10
公开(公告)号: CN111680489B 公开(公告)日: 2021-11-19
发明(设计)人: 习自;赵学敏 申请(专利权)人: 腾讯科技(深圳)有限公司
主分类号: G06F40/194 分类号: G06F40/194;G06F9/50;G06F40/279
代理公司: 北京康信知识产权代理有限责任公司 11240 代理人: 周婷婷
地址: 518000 广东省深圳*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 目标 文本 匹配 方法 装置 存储 介质 电子设备
【说明书】:

发明公开了一种目标文本的匹配方法和装置、存储介质及电子设备。其中,该方法包括:对目标文件中当前待匹配的字符串进行匹配,首先在预先建立的目标搜索树中查找到与字符串匹配的实体,获取实体的实体名称和实体编号,再根据实体编号在信息数组中获取实体的实体类型和指代信息,实体确定为包括实体名称和实体类型以及指代信息的目的,可以理解为,将单类型有指代信息的实体的唯一的类型信息存储到对应的目标搜索树中,可以减少了与目标文本中当前待匹配字符串进行匹配的实体信息数组所占内存,提高目标文本的匹配速度,进而解决了现有技术中,目标文本匹配的内存占用较大以及效率较低的技术问题。

技术领域

本发明涉及计算机技术领域,具体而言,涉及一种目标文本的匹配方法和装置、存储介质及电子设备。

背景技术

现有多模匹配方法主要有Trie树、AC算法、VM算法等。其中,Trie树算法将每个待搜索模式串当成一个节点,由此建立前缀树,并且为每个节点都记录了一个失败节点,这样在匹配失败的时候,不是直接回溯到根节点,而是跳转到失败节点继续匹配,这样做的好处是避免不必要的回溯,保证匹配一直先前进行,从而可以大量减少匹配时间。Trie树算法的主要缺点是数据结构复杂,存储空间浪费大。

AC算法同样是借助trie树,通过建立转换函数、失败函数、输出函数来达到快速匹配的目的,AC算法比Trie树算法数据结构简单、匹配效率高,但同样需要占用比较大的内存,并且启动时间较长。VM算法的核心是建立三张表:跳转表、哈希表、前缀表,其中哈希表和前缀表用于决定是否匹配成功,跳转表则用于决定匹配失败时的跳转步数。VM算法同样数据结构简单、匹配效率高,但受模式的长度分布影响比较大,要求所有模式长度应基本相同。

另外,在实际应用场景中,我们还常常关注模式对应的信息。例如,在实体抽取任务中,我们需要了解输入的用户问句中包含的实体以及实体的类别、指代等信息。一种常见的做法是:将所有实体存储在一个方便查找的数据结构中,再将所有实体所对应的信息存储到另外一个数据结构中。例如,可以将所有实体构建成一个trie树,该trie树不仅存储了实体的文本内容,并且还将每个实体与一个数字(即id)关联起来;其次,将所有实体的类别、指代信息存储到一个数组中,数组的元素是同类型的。查找的过程便是匹配的过程,对于待匹配的单个词,首先在trie树中查找,如果查找成功则返回该词对应的id,然后取出实体信息数组中下标等于该id的元素内容作为该词的实体信息;对于输入的一个用户问句,则可以采用滑窗的形式,依次查找以每个字开头的所有候选实体,并最终对这些候选实体进行过滤。

可见,现有三种多模匹配技术(Trie树、AC算法、VM算法)主要有以下几个缺点:1、数据结构复杂(Trie树算法);2、占用内存大(Trie树算法、AC算法);3、依赖模式长度分布(VM算法);4、将所有实体的信息都存储在同一个类型的数据结构中,这样会造成大量的内存浪费。

针对上述的问题,目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种目标文本的匹配方法和装置、存储介质及电子设备,以至少解决现有技术中,目标文本匹配的内存占用较大以及效率较低的技术问题。

根据本发明实施例的一个方面,提供了一种目标文本的匹配方法,包括:获取目标文本中当前待匹配的第一字符串,其中,所述第一字符串包括所述目标文本中的一个或连续多个字符;在目标搜索树中查找到与所述第一字符串匹配的第一实体,根据所述目标搜索树返回的查找结果获取所述第一实体的实体名称和实体编号;在根据所述实体编号确定出所述第一实体为单类型有指代信息的实体的情况下,在实体信息数组中获取所述第一实体的实体类型和指代信息,并将所述第一实体确定为包括所述实体名称和所述实体类型以及所述指代信息。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010525837.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top