[发明专利]一种识别数字串读法的方法及装置有效
申请号: | 201911240124.6 | 申请日: | 2019-12-04 |
公开(公告)号: | CN111026844B | 公开(公告)日: | 2023-08-01 |
发明(设计)人: | 张浩静;王大亮;齐红威;何鸿凌 | 申请(专利权)人: | 河北数云堂智能科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/289;G06F40/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 张静 |
地址: | 071000 河北省保定市莲池区七*** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 识别 字串 读法 方法 装置 | ||
1.一种识别数字串读法的方法,其特征在于,包括:
获取待识别的数据;所述待识别的数据包括数字串和文本;
调用预先训练的表征特征挖掘方法,从所述待识别的数据中提取与所述数字串相关联的第一文本数据的表征特征,并基于所述第一文本数据的表征特征,确定数字串的读法;所述表征特征为文字特征的组合;
若所述待识别的数据中包含未识别出数字串读法的第一数据,基于预先训练的浅层语法特征挖掘方法提取所述第一数据中与数字串相关的第二文本数据的浅层语法特征,并基于所述第二文本数据的浅层语法特征,确定所述第一数据中数字串的读法;所述浅层语法特征为包含文本属性的特征;所述文本属性包括词性、韵律、依存文法、语境;
若所述待识别的数据中仍然包含未识别出数字串读法的第二数据,提取所述第二数据中与数字串相关的第三文本数据的抽象特征,并基于提取到的抽象特征,确定所述第二数据中数字串的读法;所述抽象特征是将数据的表征特征、浅层语法特征和深层语义特征进行融合得到的;所述深层语义特征为通过预设的语言模型得到的词向量。
2.根据权利要求1所述的方法,其特征在于,所述表征特征挖掘方法的训练过程包括:
获取标记有数字串读法的第一训练样本集;所述第一训练样本集中包含文本和数字串;
基于预设的第一支持度和第一置信度,确定出所述第一训练样本集中词组的频繁项集;
生成与所述词组频繁项集具有关联性的规则,得到表征特征挖掘方法。
3.根据权利要求1所述的方法,其特征在于,所述基于所述文本数据的表征特征,确定数字串的读法,包括:
将所述第一文本数据的表征特征输入到预先训练的第一决策树中,得到与所述数据串的表征特征相对应的读法;所述第一决策树表示第表征特征与读法的映射关系。
4.根据权利要求1所述的方法,其特征在于,所述浅层语法特征挖掘方法的训练过程包括:
获取标记有数字串读法的第二训练样本集;所述第二训练样本集中包含文本和数字串;
对所述第二训练样本集中与数字串相邻的文本进行分词,并对分词结果的浅层语法特征进行标注;
基于预设的第二支持度和预设的第二置信度,确定所述第二训练样本集中浅层语法特征的频繁项集;
生成与所述浅层语法特征的频繁项集具有关联性的规则,得到浅层语法特征的挖掘方法。
5.根据权利要求1所述的方法,其特征在于,所述基于所述第二文本数据的浅层语法特征,确定所述第一数据中数字串的读法,包括:
将所述第二文本数据的浅层语法特征输入到预先训练的第二决策树中,得到与所述第二文本数据的浅层语法特征相对应数字串的读法;所述第二决策树表征第二文本数据的浅层语法特征与读法的映射关系。
6.根据权利要求1所述的方法,其特征在于,所述抽象特征的提取方法包括:
提取所述第三文本数据的表征特征;
提取所述第三文本数据的浅层语法特征;
提取所述第三文本数据的深层语义特征;
将所述第三文本数据的表征特征、浅层语法特征和深层语义特征进行融合,得到第三文本数据的抽象特征。
7.根据权利要求1所述的方法,其特征在于,所述基于提取到的抽象特征,确定所述第二数据中数字串的读法,包括:
将提取到的抽象特征输入到预先训练的字符串读法模型中,得到第二数据中数字串的读法;所述字符串读法模型是通过抽象特征数据对卷积神经网络进行训练后得到的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河北数云堂智能科技有限公司,未经河北数云堂智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911240124.6/1.html,转载请声明来源钻瓜专利网。