[发明专利]一种语音转写方法及装置在审
申请号: | 202011569238.8 | 申请日: | 2020-12-26 |
公开(公告)号: | CN112687273A | 公开(公告)日: | 2021-04-20 |
发明(设计)人: | 张志伟;雍文渊;汪冬雪;万欢;刘江 | 申请(专利权)人: | 科大讯飞股份有限公司 |
主分类号: | G10L15/26 | 分类号: | G10L15/26 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 冯柳伟 |
地址: | 230088 安徽*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 转写 方法 装置 | ||
本申请公开了一种语音转写方法及装置,该方法包括:在获取到第一声音采集设备在当前时刻下采集的第一当前声音信号之后,先根据该第一当前声音信号,确定该第一当前声音信号的声音能量;再判断该第一当前声音信号的声音能量是否高于该第一当前声音信号对应的转写阈值,以便在确定该第一当前声音信号的声音能量高于该第一当前声音信号对应的转写阈值时,对第一当前声音信号进行语音转写。其中,第一当前声音信号对应的转写阈值是根据第一历史声音信号的声音能量确定的,且该第一历史声音信号是由该第一声音采集设备在第一历史时间段内采集的。如此能够在出现快速对话、抢话、插话等多人同时说话的现象时准确地获取到各个发言者的发言信息。
技术领域
本申请涉及计算机技术领域,尤其涉及一种语音转写方法及装置。
背景技术
语音转写是指将声音采集设备(如,拾音器等)采集的声音信号携带的语音信息转写成文字信息的过程。另外,语音转写可以应用于多个应用场景中,尤其可以应用于多人交谈场景(例如,庭审等)中。
其中,多人交谈场景中通常部署有多个声音采集设备,以使每个声音采集设备均能够从该多人交谈场景采集到一路声音信号,从而使得该多人交谈场景中的全程交谈信息可以记录在由该多个声音采集设备采集的多路声音信号中。
然而,因现有的语音转写方法通常会先从多路声音信号中筛选出声音能量最大的一路声音信号,再对该声音能量最大的一路声音信号进行语音转写,使得在每个时间点下只能转写得到一个发言者的发言信息,如此导致在出现快速对话、抢话、插话等多人同时说话的现象时无法通过现有的语音转写方法得到多个发言者的发言信息,从而导致语音转写的准确性较低。
发明内容
本申请实施例的主要目的在于提供一种语音转写方法及装置,能够在出现快速对话、抢话、插话等多人同时说话的现象时准确地获取到各个发言者的发言信息,从而能够提高多人同时说话场景下语音转写的准确性。
本申请实施例提供了一种语音转写方法,所述方法包括:
获取第一当前声音信号;其中,所述第一当前声音信号是由第一声音采集设备在当前时刻下采集的;
根据所述第一当前声音信号,确定所述第一当前声音信号的声音能量;
在确定所述第一当前声音信号的声音能量高于所述第一当前声音信号对应的转写阈值时,对所述第一当前声音信号进行语音转写;其中,所述第一当前声音信号对应的转写阈值是根据第一历史声音信号的声音能量确定的;所述第一历史声音信号是由所述第一声音采集设备在第一历史时间段内采集的。
在一种可能的实施方式下,所述根据所述第一当前声音信号,确定所述第一当前声音信号的声音能量,包括:
在确定所述第一当前声音信号携带有语音信息时,根据所述第一当前声音信号,确定所述第一当前声音信号的声音能量。
在一种可能的实施方式下,当所述第一历史声音信号的个数为N时,所述第一当前声音信号对应的转写阈值的确定过程包括:
根据第1个第一历史声音信号的声音能量至第N个第一历史声音信号的声音能量,得到N个历史能量均值;其中,N为正整数;
将所述N个历史能量均值中最小值,确定为所述第一当前声音信号对应的转写阈值。
在一种可能的实施方式下,当i为正整数,且i≤N时,第i个历史能量均值的确定过程包括:
若i=1,则根据第1个第一历史声音信号的声音能量,确定所述第i个历史能量均值;
若i≥2,则将第i个第一历史声音信号的声音能量和第i-1个历史能量均值进行加权求和,得到所述第i个历史能量均值。
在一种可能的实施方式下,所述方法还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011569238.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种报文分类方法及装置
- 下一篇:一种乙烯基三丁酮肟基硅烷的精制方法