[发明专利]提取实体的方法、装置、设备、介质和产品在审
申请号: | 202210346916.7 | 申请日: | 2022-04-02 |
公开(公告)号: | CN114722800A | 公开(公告)日: | 2022-07-08 |
发明(设计)人: | 宋永浩;熊蜀光;居恒哲;裴肖龙 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F16/903;G06F16/31 |
代理公司: | 北京钲霖知识产权代理有限公司 11722 | 代理人: | 李英艳;杨继成 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 提取 实体 方法 装置 设备 介质 产品 | ||
本公开提供了提取实体的方法、装置、设备、介质和产品,涉及计算机技术领域,尤其涉及自然语言处理中的信息提取技术。具体实现方案为:接收待识别的文本,所述文本中包括有插入噪声字符的目标原始实体;选择与所述目标原始实体对应的形式化规则和噪声字符插入规则;根据所述形式化规则和所述噪声字符插入规则遍历所述文本,筛选用于拼接目标实体的字符,并将所述字符拼接成的字符串作为从所述文本中提取的目标实体。本公开通过噪声字符插入规则,以及根据目标实体构建的形式化规则,对文本进行遍历,将目标实体内部及上下文插入噪声字符的字符串逐步拼接为目标字符,以实现从文本中提取插入噪声字符的目标实体。
技术领域
本公开涉及计算机技术领域,尤其涉及自然语言处理中的信息提取技术。
背景技术
信息提取(information extraction,IE)技术是指从非结构化数据中抽取有价值的结构化特征或信息。其中,信息提取涉及到的非结构化数据包括文本、图片、音频和视频等。随着数字技术与移动互联网的快速发展和普及,客户端用户持续产生海量的文本,很多应用需要从海量文本中提取目标实体。
发明内容
本公开提供了一种用于提取实体的方法、装置、设备、介质和产品。
根据本公开的一方面,提供了一种提取实体的方法,包括:接收待识别的文本,所述文本中包括有插入噪声字符的目标原始实体;确定选择与所述目标原始实体对应的形式化规则和噪声字符插入规则;根据所述形式化规则和所述噪声字符插入规则遍历所述文本,筛选用于拼接目标实体的字符,并将所述字符拼接成的字符串作为从所述文本中提取的目标实体。
根据本公开的另一方面,提供了一种提取实体的装置,包括:确定单元,用于接收待识别的文本,所述文本中包括有插入噪声字符的目标原始实体,还用于选择与所述目标原始实体对应的形式化规则和噪声字符插入规则;第一提取单元,用于根据所述形式化规则和所述噪声字符插入规则遍历所述文本,筛选用于拼接目标实体的字符,并将所述字符拼接成的字符串作为从所述文本中提取的目标实体。
根据本公开的又一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行方法。
根据本公开的又一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行所述的方法。
根据本公开的又一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现所述的方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开实施例提供的提取实体的方法流程图;
图2是根据本公开实施例提供的确定形式化规则的方法流程图;
图3是根据本公开实施例提供的从文本中提取插入噪声字符的目标实体的方法流程图;
图4是根据本公开实施例提供的根据目标实体字符串长度和形式化规则进行判断的方法流程图;
图5是根据本公开实施例提供的将当前字符与形式化规则进行匹配的方法流程图;
图6是根据本公开实施例提供的更新后噪声字符变量后的处理流程图;
图7是根据本公开实施例提供的提取目标实体电话号码的流程图;
图8是根据一示例性实施例示出的一种提取实体的装置框图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210346916.7/2.html,转载请声明来源钻瓜专利网。