[发明专利]一种数据处理方法及装置在审

申请号：	202010456999.6	申请日：	2020-05-26
公开（公告）号：	CN111797617A	公开（公告）日：	2020-10-20
发明（设计）人：	吴帅;李健;武卫东	申请（专利权）人：	北京捷通华声科技股份有限公司
主分类号：	G06F40/253	分类号：	G06F40/253;G10L15/06;G10L15/26
代理公司：	北京润泽恒知识产权代理有限公司 11319	代理人：	莎日娜
地址：	100193 北京市海淀区东北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种数据处理方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例提供了一种数据处理方法及装置，其中，所述的方法包括：从零开始枚举预设位数的所有数字；根据枚举的所有数字生成数字模型；将所述数字模型转化为数字的有限状态图；获取语法规则，并将所述语法规则转化为规则的有限状态图；合并所述数字的有限状态图和规则的有限状态图，生成数字识别模型，以采用所述数字识别模型识别数字。通过生成数字的有限状态图的形式，训练所需要数字的语法识别模型，使得能够自定义相应语法规则，使得采用数字识别模型来识别数字的准确性提高。

技术领域

本发明涉及数据处理技术领域，特别是涉及一种数据处理方法，以及一种数据处理装置。

背景技术

近年来，随着大规模连续语音识别技术的发展，语音识别技术被运用在越来越多的应用场景上，以提高用户处理事情的效率。

目前，语言模型广泛应用于语音识别，语音合成，机器翻译和图像识别等人工智能技术。由于数字是一种非常关键的信息，常常需要准确的判断，尤其是银行、证券、快递和航班等应用场景中涉及的数字，因此，语音识别通常需要准确的识别数字，语音合成需要精准的读出数字，机器翻译需要正确的翻译数字，例如，对于银行的智能客服，如果识别错了用户报的银行卡号，将会导致转账错误，从而造成用户的财产损失。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种数据处理方法和相应的一种数据处理装置。

本发明实施例公开了一种数据处理方法，包括：

从零开始枚举预设位数的所有数字；

根据枚举的所有数字生成数字模型；

将所述数字模型转化为数字的有限状态图；

获取语法规则，并将所述语法规则转化为规则的有限状态图；

合并所述数字的有限状态图和规则的有限状态图，生成数字识别模型，以采用所述数字识别模型识别数字。

可选地，所述根据枚举的所有数字生成数字模型，包括：

对枚举的所有数字进行分类，得到位数不同的多类数字；

根据所述位数不同的多类数字生成多个数字模型；

所述将所述数字模型转化为数字的有限状态图，包括：