[发明专利]文本识别方法、装置、设备及存储介质在审
申请号: | 202210194555.9 | 申请日: | 2022-03-01 |
公开(公告)号: | CN114565928A | 公开(公告)日: | 2022-05-31 |
发明(设计)人: | 李轩增 | 申请(专利权)人: | 北京字节跳动网络技术有限公司 |
主分类号: | G06V30/416 | 分类号: | G06V30/416;G06V30/414;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京英创嘉友知识产权代理事务所(普通合伙) 11447 | 代理人: | 魏云鹿 |
地址: | 100041 北京市石景山区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 识别 方法 装置 设备 存储 介质 | ||
1.一种文本识别方法,其特征在于,所述方法包括:
获取待识别的文本;
通过识别模型对所述文本进行识别,得到所述文本的识别结果,所述识别结果用于标识所述文本是否为汇编文本,其中,所述识别模型包括深度模型和宽度模型,所述识别模型用于通过如下方式对所述文本进行识别:
基于所述文本确定目标特征,所述目标特征包括所述文本对应的向量特征、字数特征、标题与正文的相关度特征和话题离散度特征;
将所述目标特征中的所述向量特征输入所述深度模型,得到第一识别结果,并将所述目标特征中的所述向量特征或所述目标特征包括的所述字数特征、所述标题与正文的相关度特征和所述话题离散度特征输入所述宽度模型,得到第二识别结果;
将所述第一识别结果和所述第二识别结果进行加权合并,得到所述文本的识别结果。
2.根据权利要求1所述的方法,其特征在于,所述识别模型的训练过程包括多次训练过程,每次训练过程用于执行如下操作:
从业务系统抽取文本样本,并将与预设匹配规则匹配的文本样本标记为正样本,将与所述预设匹配规则不匹配的文本样本标记为负样本;
根据所述正样本和所述负样本训练所述识别模型,并基于所述识别模型针对所述正样本和所述负样本输出的预测识别结果,更新所述预设匹配规则,直到达到预设的训练停止条件,其中,更新的所述预设匹配规则被用于在下次迭代训练过程中确定正样本和负样本。
3.根据权利要求2所述的方法,其特征在于,所述识别模型输出的预测识别结果用于表征所述文本样本为汇编文本样本的概率,所述基于所述识别模型针对所述正样本和所述负样本输出的预测识别结果,更新所述预设匹配规则,包括:
基于所述识别模型针对所述正样本和所述负样本输出的预测识别结果对应的概率,将所述文本样本进行排序,并选取满足预设排序位置的目标文本样本;
根据所述目标文本样本,更新所述预设匹配规则。
4.根据权利要求3所述的方法,其特征在于,在将与预设匹配规则匹配的文本样本标记为正样本,将与所述预设匹配规则不匹配的文本样本标记为负样本后,所述方法还包括:
获取对所述目标文本样本的样本类型的人工识别结果,并在所述目标文本样本中确定所述人工识别结果和所述预测识别结果不同的误标文本样本,其中,所述样本类型为负样本类型或正样本类型;
基于所述误标文本样本,生成目标匹配规则;
基于所述目标匹配规则在所述文本样本中进行匹配,得到匹配文本,并基于所述误标文本样本的样本类型,修改对所述匹配文本标记的样本类型。
5.根据权利要求2-4任一项所述的方法,其特征在于,在将与预设匹配规则匹配的文本样本标记为正样本后,所述方法还包括:
基于所述正样本的标题和正文,在所述正样本中筛选目标正样本,并确定对所述目标正样本的样本类型的人工识别结果;
若所述目标正样本标记的样本类型与所述目标正样本对应的所述人工识别结果不一致,则将所述目标正样本标记为负样本。
6.根据权利要求2-4任一项所述的方法,其特征在于,所述从业务系统抽取文本样本,包括:
基于所述预设匹配规则对所述业务系统在预设时间段内的文本样本进行匹配,得到候选文本样本,并确定所述候选文本样本的发布用户;
从所述业务系统中抽取所述发布用户发布的所有文本样本。
7.根据权利要求1-4任一项所述的方法,其特征在于,所述目标特征还包括所述文本对应的向量与预设词向量的相关度特征,其中,所述文本对应的向量包括文本对应的字向量、词向量和句向量中的任一者,所述预设词向量为用于表征预设文本类型的关键词对应的向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京字节跳动网络技术有限公司,未经北京字节跳动网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210194555.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种垃圾分类投放站
- 下一篇:表格数据的展示方法、装置、电子设备及介质