[发明专利]文本识别方法、装置、设备及计算机可读存储介质在审
申请号: | 201910548488.4 | 申请日: | 2019-06-24 |
公开(公告)号: | CN110362734A | 公开(公告)日: | 2019-10-22 |
发明(设计)人: | 刘佳祥;王硕寰;孙宇 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/33 |
代理公司: | 北京鸿德海业知识产权代理事务所(普通合伙) 11412 | 代理人: | 田宏宾 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 向量表达 文本 文本识别 计算机可读存储介质 候选分类 视角 通用 目标分类 人工参与 融合处理 申请 | ||
1.一种文本识别方法,其特征在于,包括:
根据指定文本,获得所述指定文本的通用向量表达;
根据所述指定文本的通用向量表达,获得所述指定文本在至少一个视角中每个视角上的特定向量表达;
根据所述通用向量表达和所述每个视角上的特定向量表达,获得所述指定文本的至少两个候选分类结果;
对所述至少两个候选分类结果进行融合处理,以获得所述指定文本的目标分类结果。
2.根据权利要求1所述的方法,其特征在于,所述视角包括时间视角、空间时间、注意力视角或者记忆视角。
3.根据权利要求1所述的方法,其特征在于,所述根据所述指定文本的通用向量表达,获得所述指定文本在至少一个视角中每个视角上的特定向量表达,包括:
根据所述指定文本的通用向量表达,利用所述每个视角所对应的语言模型,获得该视角上的特定向量表达。
4.根据权利要求3所述的方法,其特征在于,所述根据所述指定文本的通用向量表达,利用所述每个视角所对应的语言模型,获得该视角上的特定向量表达之前,还包括:
采用交叉验证方法,进行模型训练。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
对用于所述模型训练的训练数据集中每个训练数据进行特征提取处理,以获得所述每个训练数据的特征参数的值;
根据所述每个训练数据的特征参数的值,进行指定的特征参数的随机丢弃处理,以获得该训练数据的复制数据;
将所述每个训练数据的复制数据,加入到所述训练数据集中。
6.根据权利要求1~5一权利要求所述的方法,其特征在于,所述对所述至少两个候选分类结果进行融合处理,以获得所述指定文本的目标分类结果,包括:
利用投票策略,对所述至少两个候选分类结果进行融合处理,以获得所述指定文本的目标分类结果。
7.一种文本识别装置,其特征在于,包括:
通用编码单元,用于根据指定文本,获得所述指定文本的通用向量表达;
特定编码单元,用于根据所述指定文本的通用向量表达,获得所述指定文本在至少一个视角中每个视角上的特定向量表达;
分类单元,用于根据所述通用向量表达和所述每个视角上的特定向量表达,获得所述指定文本的至少两个候选分类结果;
融合单元,用于对所述至少两个候选分类结果进行融合处理,以获得所述指定文本的目标分类结果。
8.根据权利要求7所述的装置,其特征在于,所述视角包括时间视角、空间时间、注意力视角或者记忆视角。
9.根据权利要求7所述的装置,其特征在于,所述特定编码单元,具体用于
根据所述指定文本的通用向量表达,利用所述每个视角所对应的语言模型,获得该视角上的特定向量表达。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括模型训练单元,用于
采用交叉验证装置,进行模型训练。
11.根据权利要求10所述的装置,其特征在于,所述模型训练单元,还用于
对用于所述模型训练的训练数据集中每个训练数据进行特征提取处理,以获得所述每个训练数据的特征参数的值;
根据所述每个训练数据的特征参数的值,进行指定的特征参数的随机丢弃处理,以获得该训练数据的复制数据;以及
将所述每个训练数据的复制数据,加入到所述训练数据集中。
12.根据权利要求7~11一权利要求所述的装置,其特征在于,所述融合单元,具体用于
利用投票策略,对所述至少两个候选分类结果进行融合处理,以获得所述指定文本的目标分类结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910548488.4/1.html,转载请声明来源钻瓜专利网。