[发明专利]一种基于class-base语言模型的POI语音识别方法有效

申请号：	201310342171.8	申请日：	2013-08-07
公开（公告）号：	CN103456300A	公开（公告）日：	2013-12-18
发明（设计）人：	唐立亮;鹿晓亮	申请（专利权）人：	安徽科大讯飞信息科技股份有限公司
主分类号：	G10L15/08	分类号：	G10L15/08
代理公司：	北京科迪生专利代理有限责任公司 11251	代理人：	成金玉;贾玉忠
地址：	230088 安徽省***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 class base 语言模型 poi 语音识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种连续语音识别中对POI业务的识别方案，尤其是在计算资源和存储空间有限的情况下，本发明能够有效的支持多种不同说法。

背景技术

随着语音识别技术的流行，人们越来越习惯使用POI(point of interest，即导航地图信息)语音识别功能来查找自己想去的地点。由于人们的说话习惯和方式多种多样，为了满足人们的需求，需要支持多种说法的识别。POI识别大都在一些嵌入式设备(如手机，车机)中进行，计算资源和存储空间都是十分有限的。在使用传统的语言模型的语音识别中，支持单一说法效果较好，但是支持多种说法会造成模型过大，效率底下等问题。

传统的POI语音识别具体实现方法如图1所示，首先设计用户说法，将用户说法和核心地名进行文本拓展，即将所有的核心地名填充到说法模型中，然后再用拓展后的文本训练语言模型，最后采用语言模型进行语音识别。

现有进行POI语音识别的方法存在很大的弊端：（1）传统的扩展文本方式会导致文本非常大，给训练的过程带来很大的困难。对于，“我想去A市的B地点”这个说法，如果城市列表A中文本的条目为Count(A)，地点列表B中文本的条目为Count(B)，那么在同时存在城市和地点的语料，需要扩展的条目数是Count(A)*Count(B)，这给训练模型造成了很大的开销；（2）利用传统的语言模型训练办法，说法将被重复很多次，这将对识别核心名称造成干扰，导致将一些核心名称识别成说法；（3）车载，手机识别，往往是本地识别，只能利用很有限的计算空间和存储空间去解决问题，如此大的模型将会给机器的识别带来很大负担，造成效率降低等问题。

发明内容

本发明技术解决问题：克服现有技术的不足，提供一种基于class-base(基于类别)语言模型的POI语音识别方法，能够在十分有限的计算资源和存储空间的情况下，实现多种说法的支持，明确区分说法和核心词汇，在保证占用较小资源的前提下，提高识别效果。

本发明技术解决方案：一种基于class-base语言模型的POI语音识别方法，其实现步骤如下：

（1）准备模型训练的文本

要完成语言模型的训练，需要许多无错误，规范的文本，语言模型训练工作可以看成是用机器向这些文本学习知识的过程。为了保证被学习的知识是正确的，需要除去文本中的脏数据。即，对从网络上获取的识别相关文本进行清洗，除去文本中的错字，乱码等。并将希腊数字，阿拉伯数字等转换为汉字，并将文本的编码格式设置为一致的。

（2）通用POI地点语言模型训练

首先需要介绍一下统计语言模型的概念。统计语言模型（Statistical Language Model）在连续语音识别中的作用，简单来说是用于计算一个句子的概率，即P(W₁,W₂...,W_k)，利用语言模型确定词序列的可能性，或者给定若干个词，可以预测下一个最可能出现的词语，给定句子S（词序列S＝W₁，W₂，...，W_k）的概率利用语言模型可以表示为P(S)＝P(W₁，W₂，...，W_k)＝p(W₁)P(W₂|W₁)...P(W_k|W₁，W_k，...，W_k-1)，由于上式中的参数过多，因此采用了一种常用的近似计算方法，即N-Gram模型方法。语音识别技术是基于统计语言模型的，语音识别需要通过语言模型获取词序列信息。

通用POI地点语言模型，可以看成是从所有地点信息的文本中学习POI知识。

将（1）中整理后的地点信息文本训练成统计语言模型，模型训练的步骤示意图如图2所示，说明如下，首先需要分词操作，有一个分词词典，即包含所有用户可能说的词语和字的列表。将每一行文本即将文本A1，A2，A3……An，其中A1，A2，A3……An为每个汉字或者字母，我们去词典中查找这些汉字或者字母能够形成的词的序列，从而实现分词，将分词之后的结果用空格隔开，即A1A2，A3A4……等。

将分词之后的文本中的词序列信息提取出来，例如，设有词序列B1，B2，B3（其中，B1，B2，B3全部是分词词典中的词），那我们可以将P（B3|B1B2）的信息存储到词典树（Trie树）中即可，这个词典树，也就是N-Gram模型。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于安徽科大讯飞信息科技股份有限公司，未经安徽科大讯飞信息科技股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201310342171.8/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于class-base语言模型的POI语音识别方法有效

专利文献下载