[发明专利]数据处理方法、装置、电子设备及计算机存储介质在审
申请号: | 202110390911.X | 申请日: | 2021-04-12 |
公开(公告)号: | CN113095062A | 公开(公告)日: | 2021-07-09 |
发明(设计)人: | 陈谦 | 申请(专利权)人: | 阿里巴巴新加坡控股有限公司 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F16/35;G06F40/30;G06F40/126;G10L15/26 |
代理公司: | 北京合智同创知识产权代理有限公司 11545 | 代理人: | 李杰;赵海娇 |
地址: | 新加坡珊顿道*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 电子设备 计算机 存储 介质 | ||
本发明实施例提供了一种数据处理方法、装置、电子设备及计算机存储介质。该数据处理方法包括:获取未携带标点符号的待处理文本;从待处理文本中提取出上下文信息;将所述上下文信息分别输入到点号预测模型和至少一个标号预测模型,并获得所述点号预测模型输出的点号标签序列和所述至少一个标号预测模型输出的标号标签序列;根据所述待处理文本、所述点号标签序列和至少一个所述标号标签序列,生成包含标点符号的文本。该数据处理方法效率更高。
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种数据处理方法、装置、电子设备及计算机存储介质。
背景技术
现有的自动语音识别系统(ASR)用于将语音识别成文本,以供用户在不方便听语音数据时快速获取语音数据中的内容。例如,在即时通信应用中,用户A向用户B发送语音数据,用户B在不方便播放语音时可以将语音数据转换为文本查看。现有的语音识别系统输出的文本不包含标点符号,这使得阅读体验和语义表达不佳。
发明内容
有鉴于此,本发明实施例提供一种数据处理方案,以至少部分解决上述问题。
根据本发明实施例的第一方面,提供了一种数据处理方法,包括:获取未携带标点符号的待处理文本;从待处理文本中提取出上下文信息;将所述上下文信息分别输入到点号预测模型和至少一个标号预测模型,并获得所述点号预测模型输出的点号标签序列和所述至少一个标号预测模型输出的标号标签序列;根据所述待处理文本、所述点号标签序列和至少一个所述标号标签序列,生成包含标点符号的文本。
根据本发明实施例的第二方面,提供了一种数据处理方法,包括:获取语音数据对应的未携带标点符号的待处理文本;分别使用点号预测模型和至少一个标号预测模型对所述待处理文本进行处理,以获得预测文本,所述预测文本中包含待处理文本、以及所述待处理文本对应的标号和/或点号;根据对所述预测文本中的标号和/或点号的修正操作,确定修正的文本;使用所述修正的文本对所述至少一个标号预测模型和/或点号预测模型进行调整操作。
根据本发明实施例的第三方面,提供了一种数据处理装置,包括:第一获取模块,用于获取未携带标点符号的待处理文本;提取模块,用于从待处理文本中提取出上下文信息;第一预测模块,用于将所述上下文信息分别输入到点号预测模型和至少一个标号预测模型,并获得所述点号预测模型输出的点号标签序列和所述至少一个标号预测模型输出的标号标签序列;生成模块,用于根据所述待处理文本、所述点号标签序列和至少一个所述标号标签序列,生成包含标点符号的文本。
根据本发明实施例的第四方面,提供了一种数据处理装置,包括:第二获取模块,用于获取语音数据对应的未携带标点符号的待处理文本;第二预测模块,用于分别使用点号预测模型和至少一个标号预测模型对所述待处理文本进行处理,以获得预测文本,所述预测文本中包含待处理文本、以及所述待处理文本对应的标号和/或点号;修正模块,用于根据对所述预测文本中的标号和/或点号的修正操作,确定修正的文本;调整模块,用于使用所述修正的文本对所述至少一个标号预测模型和/或点号预测模型进行调整操作。
根据本发明实施例的第五方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如第一方面或第二方面所述的数据处理方法对应的操作。
根据本发明实施例的第六方面,提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面或第二方面所述的数据处理方法。
根据本发明实施例提供的数据处理方案,从待处理文本中获得用于表征语义的上下文信息,并根据上下文信息分别使用点号预测模型和标号预测模型进行点号预测和标号预测。基于预测出的点号标签序列和标号标签序列,将相应的点号和标号补充到待处理文本中,形成包含标点符号的文本,以此提升了文本的可读性和语义准确性。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴新加坡控股有限公司,未经阿里巴巴新加坡控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110390911.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种电机定子冲片加工系统
- 下一篇:一种玻璃钢化粪池制造加工系统