[发明专利]一种数据处理方法及装置在审
申请号: | 202010456999.6 | 申请日: | 2020-05-26 |
公开(公告)号: | CN111797617A | 公开(公告)日: | 2020-10-20 |
发明(设计)人: | 吴帅;李健;武卫东 | 申请(专利权)人: | 北京捷通华声科技股份有限公司 |
主分类号: | G06F40/253 | 分类号: | G06F40/253;G10L15/06;G10L15/26 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
地址: | 100193 北京市海淀区东北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 装置 | ||
本发明实施例提供了一种数据处理方法及装置,其中,所述的方法包括:从零开始枚举预设位数的所有数字;根据枚举的所有数字生成数字模型;将所述数字模型转化为数字的有限状态图;获取语法规则,并将所述语法规则转化为规则的有限状态图;合并所述数字的有限状态图和规则的有限状态图,生成数字识别模型,以采用所述数字识别模型识别数字。通过生成数字的有限状态图的形式,训练所需要数字的语法识别模型,使得能够自定义相应语法规则,使得采用数字识别模型来识别数字的准确性提高。
技术领域
本发明涉及数据处理技术领域,特别是涉及一种数据处理方法,以及一种数据处理装置。
背景技术
近年来,随着大规模连续语音识别技术的发展,语音识别技术被运用在越来越多的应用场景上,以提高用户处理事情的效率。
目前,语言模型广泛应用于语音识别,语音合成,机器翻译和图像识别等人工智能技术。由于数字是一种非常关键的信息,常常需要准确的判断,尤其是银行、证券、快递和航班等应用场景中涉及的数字,因此,语音识别通常需要准确的识别数字,语音合成需要精准的读出数字,机器翻译需要正确的翻译数字,例如,对于银行的智能客服,如果识别错了用户报的银行卡号,将会导致转账错误,从而造成用户的财产损失。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种数据处理方法和相应的一种数据处理装置。
本发明实施例公开了一种数据处理方法,包括:
从零开始枚举预设位数的所有数字;
根据枚举的所有数字生成数字模型;
将所述数字模型转化为数字的有限状态图;
获取语法规则,并将所述语法规则转化为规则的有限状态图;
合并所述数字的有限状态图和规则的有限状态图,生成数字识别模型,以采用所述数字识别模型识别数字。
可选地,所述根据枚举的所有数字生成数字模型,包括:
对枚举的所有数字进行分类,得到位数不同的多类数字;
根据所述位数不同的多类数字生成多个数字模型;
所述将所述数字模型转化为数字的有限状态图,包括:
将所述多个数字模型转化为多个数字的有限状态图。
可选地,所述根据所述位数不同的多类数字生成多个数字模型,包括:
根据所述位数不同的多类数字生成多个数值模型,和多个号码模型;
其中,所述数值模型具有对应的数量单位,所述号码模型具有对应的数量单位。
可选地,所述将所述多个数字模型转化为多个数字的有限状态图,包括:
将所述多个数值模型转化为多个第一有限状态图,以及将所述多个号码模型转化为多个第二有限状态图。
可选地,所述合并所述数字有限状态图和规则有限状态图,生成数字识别模型,包括:
分别合并所述多个数字的有限状态图和所述规则的有限状态图,生成多个数字识别模型。
可选地,所述规则的有限状态图包括数字类别和数字长度,所述分别合并所述多个数字的有限状态图和所述规则的有限状态图,生成多个数字识别模型,包括:
遍历查找所述规则的有限状态图中的数字类别,及相应的状态连接边和数字长度;
从所述规则的有限状态图中删除所述状态连接边,并记录所述状态连接边的起点和终点;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京捷通华声科技股份有限公司,未经北京捷通华声科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010456999.6/2.html,转载请声明来源钻瓜专利网。