[实用新型]语音语料库的构建系统有效

申请号：	201320166387.9	申请日：	2013-04-03
公开（公告）号：	CN203456091U	公开（公告）日：	2014-02-26
发明（设计）人：	江南;陈德全	申请（专利权）人：	中金数据系统有限公司
主分类号：	G10L15/06	分类号：	G10L15/06;G10L15/30
代理公司：	北京三聚阳光知识产权代理有限公司 11250	代理人：	寇海侠
地址：	100176 北京市大***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音语料库构建系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本实用新型涉及到一种语音识别系统，具体是一种语音语料库的构建系统。

背景技术

语音识别技术的发展已有40多年的历史了，并取得显著的进步，在一些企业系统中已经得到普及和应用。但由于识别准确率的影响，极大地限制了语音识别在更广泛的应用领域内的应用。

语音识别属于人工智能和机器学习任务的一种应用，其中，机器学习任务一般分为训练和预测两个过程：训练过程对已知样本进行总结归纳，形成模型；预测过程则利用该模型对未知样本进行预测。那么预测的结果将取决于模型的完善性和准确性。机器学习任务符合贝叶斯原则，贝叶斯公式如下:P(h|D)=P(D|h)*p(h)/P(D)，其中D为样本集合，h为假设空间即模型，P(h|D)为在已出现D的情况出现h的条件概率也成为h的后验概率。贝叶斯公式的基本含义是观察到已知样本的情况下，使得模型的后验概率最大化。从上述公式可以看出如果P(D)越大，得到模型也越接近于真实情况，也就是说我们需要收集足够多的样本才能保证模型的完善性。其中的已知样本指语音样本即语料，多个语音样本的集合就构成语料库。因为统计自然语言中通常无法观测到大规模的语言实例，所以简单的把典型的特定的文本上下文关系作为现实世界中语言的上下文关系的替代品，在语音识别领域，这种替代品被称为话术。在语音识别优化过程中，需要采集与话术匹配的声音信息，也就是语料。根据上述机器学习理论原理，在采集质量一定的情况下，语料库数量与语音识别的准确率成正向关系。

为保证后期获取比较纯正的语音语料，现有语音语料库的采集通常采用如下方式：准备专用的录音室，招募数量庞大的志愿者进行语料录制并组建一批经过训练的工作人员用以采集、标注和后期的维护工作。进而导致数据采集的成本过高，进而导致语音语料的成本过高，限制了语音语料库的使用！

而且，现有的语音语料库的建设，要么完全依赖话术建设，要么完全依赖实际场景中获得的语音语料建设；完全依赖话术建设的语音语料库目标明确，训练时间短，可大幅度提高识别的精度，但是完全依赖话术建设的语音语料库的识别率又依赖于拟定话术的业务专家的水平，识别精度不好控制且建设成本高；完全依赖实际场景中获得的语音语料逼近业务场景，可充分利用现有资源，但是完全依赖实际场景获得的语音语料目标不明确，需要基数巨大的语音语料才能覆盖该特定领域的所有关键词。中国专利文献101593518就公开了一种实际场景语料和有限状态网络语料的平衡方法，其语料的来源有两部分，一部分是通过整理实际应用场景下录音得到的语料，称为实际场景语料；另一部分是用有限状态网络句法规则方法生成的语料，称为FSN语料，该文献重点研究了这两种语料的平衡方法，提出了以实际场景语料和FSN语料中共有的关键词的概率的比较为依据，用一定倍数的部分实际场景语料扩展FSN语料，得到最终语言模型训练语料的方法。因此，该文献公开的方法最终都完全依赖实际场景语料，由于实际场景语料本身目标不明确，与完全依赖话术建设的语音语料数量相同的实际场景语料的能识别的目标少，识别率低。

实用新型内容

为此，本实用新型第一个所要解决的是现有语音语料采集方法采集成本高的技术问题，提供一种充分利用现有互联网的语音语料库的构建系统。

本实用新型第二个要解决的是现有完全依赖话术建设的语音语料库和完全基于实际场景获取的实际场景语音语料库不能兼顾低成本和高识别率的技术问题，提供一种成本低且识别率高的语音语料库的构建系统。

为解决上述技术问题，本实用新型采用的技术方案如下：

一种语音语料库的构建系统，包括，

语音录入客户端，其进一步包括：

声音采集装置，采集基于话术录入的语音作为基础语音语料，并将采集得到的所述基础语音语料和对应的所述话术传输给网络发送装置；

网络发送装置，接收所述声音采集装置采集的基础语音语料并将所述基础语音语料和对应的所述话术通过网络传输给服务器；

服务器，接收所述网络发送装置发送的基础语音语料和对应的所述话术并存储至语料库。

还包括实际场景语音语料采集装置，用于采集实际应用场景中产生的语音语料，并将采集得到的实际场景语音语料进行识别并将实际场景语音语料和识别结果传输至所述服务器的临时语料库。

还包括对所述临时语料库存储的实际场景语音语料进行在线标注的标注用客户端。

所述标注用客户端进一步包括，