[发明专利]一种语音转文本的方法、装置、电子设备及可读存储介质有效
申请号: | 202011209676.3 | 申请日: | 2020-11-03 |
公开(公告)号: | CN112331209B | 公开(公告)日: | 2023-08-08 |
发明(设计)人: | 李金金;张克骞;刘晓华;李文博 | 申请(专利权)人: | 建信金融科技有限责任公司 |
主分类号: | G10L15/26 | 分类号: | G10L15/26;G10L15/18;G10L25/63 |
代理公司: | 北京市兰台律师事务所 11354 | 代理人: | 张峰 |
地址: | 200120 上海市浦东新区*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 转文 方法 装置 电子设备 可读 存储 介质 | ||
1.一种语音转文本的方法,应用于通讯终端,其特征在于,所述方法包括:
接收用户指令,其中所述指令用于指示将目标语音转为文本;
根据预存的语音分析模型,分析识别所述目标语音内容;
所述预存的语音分析模型至少包括:语音语义分析模型和语音情绪分析模型;其中,
所述语音语义分析模型包括多种语言类别的子模型;
所述语音情绪分析模型包括声学特征模型和情绪数据库;其中所述声学特征模型的分析结果与情绪数据库存在映射关系;所述情绪数据库包括多种情绪符号;
根据预存的语音分析模型分析识别所述目标语音内容包括:
根据语音语义分析模型,确定所述目标语音包括的语言类别;
根据确定的语言类别,选择与所述语言类别匹配的语言子模型分析并识别所述目标语音包括的内容;
根据预存的语音分析模型,分析识别所述目标语音内容还包括:
提取所述目标语音的音频特征数据;其中所述音频特征数据包括所述目标语音音频频率、波形、波幅;
根据所述声学特征模型,确定所述音频特征数据的类型;
根据所述情绪数据库,为确定类型的音频特征数据匹配具有映射关系的目标情绪符号;
建立所述目标语音与所述目标情绪符号的映射关系;
其中所述目标语音至少包括所述目标语音中包含的语言内容和情绪;
根据分析结果,将所述目标语音内容转化为文本内容并显示;其中所述文本内容至少包括:语言内容和情绪符号;其中所述情绪符号包括但不限于:语言符号和非语言符号。
2.根据权利要求1所述的语音转文本的方法,其特征在于,所述将所述目标语音内容转化为文本内容并显示包括:
将根据分析结果获取的语言内容和具有映射关系的目标情绪符号按照预设的组合规则组合为文本;
将所述组合文本显示在预设的显示界面上。
3.根据权利要求2所述的语音转文本的方法,其特征在于,所述预设的组合规则包括:
将所述目标情绪符号排列在语言内容之后;或,
将所述目标情绪符号排列在语言内容中的情绪词之后或一个完整的意思表达之后;其中所述情绪词和完整的意思表达是根据语言内容的判断获得。
4.根据权利要求3所述的语音转文本的方法,其特征在于,所述预设的显示界面包括:
与所述目标语音消息框的距离满足预设条款的显示框。
5.根据权利要求4所述的语音转文本的方法,其特征在于,所述语音语义分析模型还包括可视化数据库,其中所述可视化数据库中包括多个与目标文字具有映射关系的图片或美术作品;所述方法还包括:
获取根据语音语义分析模型分析到的语言内容;
提取语言内容中的目标文字;
根据可视化数据库,将所述目标文字替换为与其具有映射关系的图片或美术作品进行表达。
6.根据权利要求1或5所述的语音转文本的方法,其特征在于,在接收用户指令之前,所述方法还包括:
通讯终端接收至少一条语音信息;
接收用户对所述至少一条语音信息的选择指令;其中被所述用户选择的语言信息即为目标语音。
7.根据权利要求6所述的语音转文本的方法,其特征在于,通讯终端接收用户的选择指令的方式包括:
通讯终端的屏幕接收用户对目标语音信息框的满足预设条件的长按、重压、双击或指纹;其中,
当所述选择指令方式为重压时,所述通讯终端的屏幕为压力屏;
当所述选择指令方式为指纹验证时,所述通讯终端的屏幕为指纹屏。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于建信金融科技有限责任公司,未经建信金融科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011209676.3/1.html,转载请声明来源钻瓜专利网。