[发明专利]数据处理方法、装置、电子设备及存储介质有效

申请号：	201911327026.6	申请日：	2019-12-20
公开（公告）号：	CN110942775B	公开（公告）日：	2022-07-01
发明（设计）人：	郝杰	申请（专利权）人：	北京欧珀通信有限公司
主分类号：	G10L15/26	分类号：	G10L15/26;G10L15/30;G10L15/197;G10L15/00;G06F40/58;G06F40/289
代理公司：	北京派特恩知识产权代理有限公司 11270	代理人：	王姗姗;张颖玲
地址：	100125 北京市朝阳区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	数据处理方法装置电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种数据处理方法、装置、电子设备及存储介质。其中，方法包括：获取待处理数据；对所述待处理数据进行特征提取，得到特征序列；确定所述特征序列对应的第一信息；所述第一信息表征所述特征序列对应的文本中包含至少一个第一关键词；所述第一关键词是按照自身的属性进行标记的词语；基于所述第一信息，结合第一语言模型对所述待处理数据进行识别，获得识别文本。

技术领域

本发明涉及同声传译技术，具体涉及一种数据处理方法、装置、电子设备及存储介质。

背景技术

随着人工智能技术的快速发展，语言模型被广泛地应用在语音识别、输入法、信息检索等技术领域。例如，在输入法技术领域中，语言模型可以用于确定用户输入的文本最有可能对应的文字序列；在语音识别技术领域中，语言模型可以用于确定用户输入的语音最有可能对应的文字序列。语言模型可以广泛应用在各种场景，比如同声传译场景。相关技术中在语言模型的语料不足的情况下存在识别结果准确率较低和效率较低的问题。

发明内容

为解决相关技术问题，本发明实施例提供一种数据处理方法、装置、电子设备及存储介质。

本发明实施例的技术方案是这样实现的：

本发明实施例提供了一种数据处理方法，包括：

获取待处理数据；

对待处理数据进行特征提取，得到特征序列；确定所述特征序列对应的第一信息；所述第一信息表征所述特征序列对应的文本中包含至少一个第一关键词；所述第一关键词是按照自身的属性进行标记的词语；

基于所述第一信息，结合第一语言模型对所述待处理数据进行识别，获得识别文本。

上述方案中，所述确定所述特征序列对应的第一信息，包括：

基于正则表达式确定所述特征序列对应的至少一个第一词语；

从词典数据库中查找与所述至少一个第一词语对应的标记信息；所述词典数据库存储有词语与词语的标记信息的对应关系；

将查找到的标记信息作为所述特征序列对应的第一信息。

上述方案中，所述基于所述第一信息，结合语音识别模型对所述待处理数据进行识别，获取识别文本，包括：