[发明专利]提取实体的方法、装置、设备、介质和产品在审
申请号: | 202210346916.7 | 申请日: | 2022-04-02 |
公开(公告)号: | CN114722800A | 公开(公告)日: | 2022-07-08 |
发明(设计)人: | 宋永浩;熊蜀光;居恒哲;裴肖龙 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F16/903;G06F16/31 |
代理公司: | 北京钲霖知识产权代理有限公司 11722 | 代理人: | 李英艳;杨继成 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 提取 实体 方法 装置 设备 介质 产品 | ||
1.一种提取实体的方法,包括:
接收待识别的文本,所述文本中包括有插入噪声字符的目标原始实体;
选择与所述目标原始实体对应的形式化规则和噪声字符插入规则;
根据所述形式化规则和所述噪声字符插入规则遍历所述文本,筛选用于拼接目标实体的字符,并将所述字符拼接成的字符串作为从所述文本中提取的目标实体。
2.根据权利要求1所述的方法,其中,所述形式化规则按照下列方式构建:
分析目标实体样本,确定所述目标实体样本的每个字符位置上允许出现的字符集合,以及所述每个字符位置之间的约束关系;
基于每个字符位置上允许出现的字符集合,以及所述每个字符位置之间的约束关系,构建形式化规则。
3.根据权利要求1所述的方法,其中,所述根据所述形式化规则和所述噪声字符插入规则遍历所述文本,筛选用于拼接目标实体的字符,并将所述字符拼接成的字符串作为从所述文本中提取的目标实体,包括:
遍历所述文本中的字符,确定当前字符的类型,以及目标实体变量的目标实体字符串长度,所述目标实体变量用于存储筛选出用于拼接目标实体的字符;
若所述当前字符的类型与所述目标实体的目标类型匹配,则根据所述目标实体字符串长度和所述形式化规则,将所述当前字符存储到所述目标实体变量或初始化目标变量,继续遍历下一个字符;
若所述当前字符的类型与所述目标实体的目标类型不匹配,则更新用于记录噪声字符数量的噪声字符变量,并基于更新后噪声字符变量和所述实体字符串长度,初始化目标变量或将所述目标实体变量中存储的字符拼接成表征目标实体的字符串并存储到目标实体列表,所述目标变量包括目标实体变量和噪声字符变量,继续遍历下一个字符;
直到遍历完所述文本中的字符,将存储在所述目标实体列表中的目标实体,作为从所述文本中提取到的目标实体。
4.根据权利要求3所述的方法,其中,所述根据所述目标实体字符串长度和所述形式化规则,将所述当前字符存储到所述目标实体变量或初始化目标变量,包括:
若所述目标实体字符串长度大于或等于目标实体字符串长度阈值,则初始化目标实体变量和噪声字符变量;
若所述目标实体字符串长度小于目标实体字符串长度阈值,则将所述当前字符与所述形式化规则进行匹配,并基于匹配结果将所述当前字符存储到所述目标实体变量或初始化所述目标变量。
5.根据权利要求4所述的方法,其中,所述将所述当前字符与所述形式化规则进行匹配,并基于匹配结果将所述当前字符存储到所述目标实体变量或初始化所述目标变量,包括:
根据所述目标实体字符串长度,确定待存储的目标实体字符在目标实体中所处的目标位置;
在字典数据结构中确定所述目标位置处的字符集合,所述字典数据结构基于对所述形式化规则进行解析得到;
若所述字符集合中存在与所述当前字符匹配的字符,则将所述当前字符存储到所述目标实体变量;
若所述字符集合中不存在与所述当前字符匹配的字符,则初始化所述目标实体变量和噪声字符变量。
6.根据权利要求3所述的方法,其中,所述基于更新后噪声字符变量和所述实体字符串长度,初始化目标变量或将所述目标实体变量中存储的字符拼接成表征目标实体的字符串并存储到目标实体列表,包括:
若所述实体字符串长度等于目标实体字符串长度阈值,则将所述目标实体变量中存储的字符拼接成表征目标实体的字符串并存储到目标实体列表,初始化所述目标实体变量和噪声字符变量;
若所述实体字符串长度小于目标实体字符串长度阈值,且更新后噪声字符变量大于噪声字符变量阈值,则初始化所述目标实体变量和噪声字符变量。
7.根据权利要求1-6中任意一项所述的方法,其中,所述接收待识别的文本包括:
获取待识别的文本;
对所述文本进行预处理,并将预处理后的文本确定为待识别的文本。
8.根据权利要求7所述的方法,还包括:
根据预先构建的正则表达式从所述文本中提取目标实体,所述正则表达式根据所述目标实体构建。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210346916.7/1.html,转载请声明来源钻瓜专利网。