[发明专利]一种语音转文本的方法、装置、电子设备及可读存储介质有效
申请号: | 202011209676.3 | 申请日: | 2020-11-03 |
公开(公告)号: | CN112331209B | 公开(公告)日: | 2023-08-08 |
发明(设计)人: | 李金金;张克骞;刘晓华;李文博 | 申请(专利权)人: | 建信金融科技有限责任公司 |
主分类号: | G10L15/26 | 分类号: | G10L15/26;G10L15/18;G10L25/63 |
代理公司: | 北京市兰台律师事务所 11354 | 代理人: | 张峰 |
地址: | 200120 上海市浦东新区*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 转文 方法 装置 电子设备 可读 存储 介质 | ||
本发明涉及即时通讯技术领域,具体涉及一种语音转文本的方法和装置。所述方法包括:接收用户指令,其中所述指令用于指示将目标语音转为文本;根据预存的语音分析模型,分析识别所述目标语音内容;其中所述目标语音至少包括所述语音中包含的语言内容和情绪;根据分析结果,将所述目标语音内容转化为文本内容;其中所述文本内容至少包括:语言内容和情绪符号;其中所述情绪符号包括但不限于:语言符号和非语言符号。本申请提供的语音转文本方案解决了现有技术方案中存在着的语音转文本无法表达语音中所包含的情绪的问题,使得语音转文本技术更丰富和具有趣味性。
技术领域
本发明涉及即时通讯技术领域,具体涉及一种语音转文本的方法、装置、电子设备及可读存储介质。
背景技术
语音是人类通过发声器官发出具有一定社会意义的声音,是最直接地记录人地思维活动地符号体系,因其蕴含了文字信息无法比拟的丰富信息而被广泛使用。随着移动互联网发展,语音在即时通讯系统中被广泛使用,特别是在特定场景下进行了延伸,如语音转文字功能。但是目前语音转文字在实际运用过程中存在着不能将语音中包含的情绪体现出来而体验效果不佳,例如很多人对情绪不够敏感,无法很好地感知和掌握对方实际想表达的情绪,听觉障碍人群虽然能够使用语音转文字功能,但无法感受和理解语音蕴含的丰富信息,目前的语言转文本的方案大都无法将语音中包含的声学特征情绪呈现出来。
发明内容
本申请的目的旨在至少能解决上述的技术缺陷之一。本申请所采用的技术方案如下:
第一方面,本申请实施例公开了一种语音转文本的方法,应用于通讯终端,所述方法包括:
接收用户指令,其中所述指令用于指示将目标语音转为文本;
根据预存的语音分析模型,分析识别所述目标语音内容;其中所述目标语音至少包括所述语音中包含的语言内容和情绪;
根据分析结果,将所述目标语音内容转化为文本内容并显示;其中所述文本内容至少包括:语言内容和情绪符号;其中所述情绪符号包括但不限于:语言符号和非语言符号。
进一步地,所述预存的语音分析模型至少包括:语音语义分析模型和语音情绪分析模型;其中,
所述语音语义分析模型包括多种语言类别的子模型;
所述语音情绪分析模型包括声学特征模型和情绪数据库;其中所述声学特征模型的分析结果与情绪数据库存在映射关系;所述情绪数据库包括多种情绪符号。
进一步地,根据预存的语音分析模型分析识别所述目标语音内容包括:
根据语音语义分析模型,确定所述目标语音包括的语言类别;
根据确定的语言类别,选择与所述语言类别匹配的语言子模型分析并识别所述目标语音包括的内容。
进一步地,根据预存的语音分析模型分析识别所述目标语音内容包括:
提取所述目标语音的音频特征数据;其中所述音频特征数据包括所述目标语音音频频率、波形、波幅;
根据所述声学特征模型,确定所述音频特征数据的类型;
根据所述情绪数据库,为所述确定类型的音频特征数据匹配具有映射关系的目标情绪符号;
建立所述目标语音与所述目标情绪符号的映射关系。
进一步地,将所述目标语音内容转化为文本内容并显示,包括:
将根据分析结果获取的语言内容和具有映射关系的目标情绪符号按照预设的组合规则组合为文本;
将所述组合文本显示在预设的显示界面上。
进一步地,所述预设的组合规则包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于建信金融科技有限责任公司,未经建信金融科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011209676.3/2.html,转载请声明来源钻瓜专利网。