[发明专利]一种自动生成基于地方方言的讯或询问笔录的方法在审
申请号: | 201810929477.6 | 申请日: | 2018-08-15 |
公开(公告)号: | CN109243460A | 公开(公告)日: | 2019-01-18 |
发明(设计)人: | 徐甲甲;费先江;盛马宝;廖志明 | 申请(专利权)人: | 浙江讯飞智能科技有限公司 |
主分类号: | G10L15/26 | 分类号: | G10L15/26;G10L15/22;G10L15/14;G10L15/06;G10L15/08 |
代理公司: | 杭州融方专利代理事务所(普通合伙) 33266 | 代理人: | 沈相权 |
地址: | 311201 浙江省杭州市萧山区*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明专利涉及一种讯或询问笔录的方法,尤其涉及一种自动生成基于地方方言的讯或询问笔录的方法。按以下步骤进行:前端语音处理模块→后端语音识别模块→模型训练模块。一种自动生成基于地方方言的讯或询问笔录的方法,进一步提高办事效率和准确性。 | ||
搜索关键词: | 地方方言 自动生成 询问 模型训练模块 语音处理模块 语音识别模块 办事效率 | ||
【主权项】:
1.一种自动生成基于地方方言的讯或询问笔录的方法,其特征在于按以下步骤进行:(一)、前端语音处理模块:针对输入的语音,首先使用基于能量及模型的VAD技术进行分段,再采用基于模型的聚类技术对原始语音中的人声、非语音、背景噪音相关现象进行自动判别及归类,再进一步针对不同说话人进行聚类,针对分割后的语音提取对语音识别有效的、对噪声鲁棒性较好的声学特征,同时为了消除不同说话人对识别效果的影响,首先会从特征域尽可能去除说话人的信息,主流的特征域处理方式包括VTLN、HLDA、特征域SAT相关技术,通过这些关键技术的加入,可以获得冗余信息更少、说话人信息被去除的声学特征,为后续的语音识别做好准备;(二)、后端语音识别模块:为了将各语音转写关键技术点进行更好的整合,并综合考虑识别效果和识别效率相关因素,在系统中将使用多编解码框架:首先使用简单声学模型和低阶语言模型,简单声学模型是指模型复杂度较小、未去除说话人信息;低阶语言模型是指三阶且模型复杂度较小;并结合WFST解码器进行一遍的快速解码,并生成对应的词图空间,该词图空间具有覆盖性好、结构紧致的特点;接着,将绝大多数对性能提升的核心技术点放到二遍解码中,包括特征规整、区分性特征、模型区分性训练、模型自适应,并在二遍解码中相应使用更加复杂的声学模型和超大规模高阶语言模型,在词图空间中采用重新打分的方式输出二遍解码结果;虽然二遍解码融入了各关键技术点,且模型复杂度相对于一编解码提升很多,但是由于基于该词图空间的搜索范围小了很多,二遍解码的效率非常高;基于上述多编解码框架,不仅能将各转写技术点的性能提升发挥出来,在效率上还有巨大的优势;置信度判决是后端语音识别系统中重要的后处理模块,针对识别结果中可能出现的错误通过词后验概率技术给出识别结果对应的可信度得分,对可信度低的识别结果进行智能拒识;语音识别在解码过程中会生成词图网格来表征可能的句子候选空间;词图网格中每条弧表示了词的声学和语言模型得分,一般而言每一时刻会有若干候选词,通过维特比前后向算法计算每个词的后验概率;识别最优结果是词图候选空间中的一条整体得分最大的路径,通过构成该句子的每个词的后验概率;由于一遍置信度计算是定义在词图上,词图对多候选的覆盖度一般很难控制,存在计算不够精确的情况;此外每个词一般包含若干语音帧,时间精度也不够;在一遍解码的基础之上采用Force Alignment的方案得到每个语音帧的时间状态信息,基于最优路径状态声学后验概率的几何平均构建第二个句子置信度;最终置信度是词图置信度和最优路径状态声学置信度的平均;此外在解码过程中,由于每条路径的状态置信度可以同步存储下来,所以两个置信度得分计算可以在一遍解码过程中完成从而不会对引擎效率带来大的影响;(三)、模型训练模块:①声学模型训练:声学模型训练模块用于识别方言声学模型资源,主要是指针对音素、音节相关声学建模单元设计适合的模型分布,并使用相应的语音数据,实际是转化为上面提及的声学特征,对这些模型参数进行训练;声学模型是语音识别引擎中最重要的模块之一,其模型准确性直接影响了最终的识别效果;基于长短时记忆(LSTM)的LSTM‑HMM混合模型的相关研究成为国际上研究的热点,其相当于传统HMM获得了显著的性能提升;除了针对传统HMM模型进行了一系列核心技术的研发,还对最新的研究热点LSTM‑HMM模型进行研发,具体的是基于海量数据的声学模型区分性训练;声学模型的区分性训练是提升声学模型性能的最主要手段;除了采用MPE和Boosted MMI相关训练准则算法,还在传统EBW参数更新算法的基础上提出称为Constrained Line Search(CLS)和Trust Region(TR)的两种模型参数更新算法,使得区分性模型参数更具有理论性和可调配性,有效地提升区分性训练算法的效果;接着,在获得大量讯或询问场景下海量声学数据的前提下,研发大数据量下的声学模型区分性训练,数据量为2000‑5000小时声学数据:首先,针对竞争空间的生成规模进行仔细的调节,否则容易出现过训练或欠训练的现象,只有结合训练数据量仔细的控制区分性训练中积累的统计量,才能使得海量数据上的声学模型区分性训练相对于最大似然估计的基线系统获得合理的提升;另外,相对于最大似然基线系统,区分性训练是非常耗费机器资源的,通过对区分性训练流程的优化,显著提升训练过程的效率,使得海量数据基础上的区分性训练真正实用化;②语言模型训练:语言模型模块用于识别方言语言模型资源,语言模型主要是指针对词序列之间的组合建立相应的概率体系,以判断哪些词序列在识别过程中更容易出现;语言模型对词序列的预测能力直接影响着识别性能的好坏;采用基于海量文本数据的超大规模高阶语言模型,以及RNN语言模型;基于海量文本数据的超大规模高阶语言模型训练:在传统任务中,训练文本一般控制在1G以内,且相应训练的语言模型规模一般控制在1M n‑gram数目以内,此时已经能获得较饱和的识别性能;然而,在询问或讯问环境下,语音输入的内容是完全开放没有任何限制的,此时如果想针对开放性内容获得较好的识别效果,一方面必须要扩大训练语料的获取范围和数据量以提高响应模型的覆盖度,另一方面也要相应增加语言模型的复杂度以用更多的模型参数来对海量数据进行建模;基于大量的讯或询问文本训练了超大规模的语言模型,超大规模是指100M n‑gram,同时为了提升语言模型对更长词序列的覆盖性,语言模型的阶数从传统的3阶提升到5阶;然而,如此庞大的语言模型一般无法直接在解码器中使用,通过开发查分系统,以达到在二遍解码中用到此超大规模语言模型得分的目的;在已有研究成果表明,在使用了该超大规模语言模型以后,整体识别结果提升了绝对5个点以上,在较生僻词汇及说法的识别效果有了显著的改善;③词典资源训练:词典资源模块用于识别方言音字词典资源,词典资源模块包含系统所能处理的单词的集合,并标明了其发音;通过词典资源得到声学模型的建模单元和语言模型建模单元间的映射关系,从而把声学模型和语言模型连接起来,组成一个搜索的状态空间用于解码器进行解码工作;词典资源是存放所有单词的发音的词典,它的作用是用来连接声学模型和语言模型的;如,一个句子可以分成若干个单词相连接,每个单词通过查询词典资源得到该单词发音的音素序列;相邻单词的转移概率可以通过语言模型获得,音素的概率模型可以通过声学模型获得;从而生成了这句话的一个概率模型。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江讯飞智能科技有限公司,未经浙江讯飞智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810929477.6/,转载请声明来源钻瓜专利网。