[发明专利]提取实体的方法、装置、设备、介质和产品在审

申请号：	202210346916.7	申请日：	2022-04-02
公开（公告）号：	CN114722800A	公开（公告）日：	2022-07-08
发明（设计）人：	宋永浩;熊蜀光;居恒哲;裴肖龙	申请（专利权）人：	北京百度网讯科技有限公司
主分类号：	G06F40/279	分类号：	G06F40/279;G06F16/903;G06F16/31
代理公司：	北京钲霖知识产权代理有限公司 11722	代理人：	李英艳;杨继成
地址：	100085 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	提取实体方法装置设备介质产品
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开提供了提取实体的方法、装置、设备、介质和产品，涉及计算机技术领域，尤其涉及自然语言处理中的信息提取技术。具体实现方案为：接收待识别的文本，所述文本中包括有插入噪声字符的目标原始实体；选择与所述目标原始实体对应的形式化规则和噪声字符插入规则；根据所述形式化规则和所述噪声字符插入规则遍历所述文本，筛选用于拼接目标实体的字符，并将所述字符拼接成的字符串作为从所述文本中提取的目标实体。本公开通过噪声字符插入规则，以及根据目标实体构建的形式化规则，对文本进行遍历，将目标实体内部及上下文插入噪声字符的字符串逐步拼接为目标字符，以实现从文本中提取插入噪声字符的目标实体。

技术领域

本公开涉及计算机技术领域，尤其涉及自然语言处理中的信息提取技术。

背景技术

信息提取(information extraction，IE)技术是指从非结构化数据中抽取有价值的结构化特征或信息。其中，信息提取涉及到的非结构化数据包括文本、图片、音频和视频等。随着数字技术与移动互联网的快速发展和普及，客户端用户持续产生海量的文本，很多应用需要从海量文本中提取目标实体。

发明内容

本公开提供了一种用于提取实体的方法、装置、设备、介质和产品。

根据本公开的一方面，提供了一种提取实体的方法，包括：接收待识别的文本，所述文本中包括有插入噪声字符的目标原始实体；确定选择与所述目标原始实体对应的形式化规则和噪声字符插入规则；根据所述形式化规则和所述噪声字符插入规则遍历所述文本，筛选用于拼接目标实体的字符，并将所述字符拼接成的字符串作为从所述文本中提取的目标实体。

根据本公开的另一方面，提供了一种提取实体的装置，包括：确定单元，用于接收待识别的文本，所述文本中包括有插入噪声字符的目标原始实体，还用于选择与所述目标原始实体对应的形式化规则和噪声字符插入规则；第一提取单元，用于根据所述形式化规则和所述噪声字符插入规则遍历所述文本，筛选用于拼接目标实体的字符，并将所述字符拼接成的字符串作为从所述文本中提取的目标实体。

根据本公开的又一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行方法。

根据本公开的又一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行所述的方法。

根据本公开的又一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现所述的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例提供的提取实体的方法流程图；

图2是根据本公开实施例提供的确定形式化规则的方法流程图；

图3是根据本公开实施例提供的从文本中提取插入噪声字符的目标实体的方法流程图；

图4是根据本公开实施例提供的根据目标实体字符串长度和形式化规则进行判断的方法流程图；

图5是根据本公开实施例提供的将当前字符与形式化规则进行匹配的方法流程图；

图6是根据本公开实施例提供的更新后噪声字符变量后的处理流程图；