[发明专利]一种基于class-base语言模型的POI语音识别方法有效
申请号: | 201310342171.8 | 申请日: | 2013-08-07 |
公开(公告)号: | CN103456300A | 公开(公告)日: | 2013-12-18 |
发明(设计)人: | 唐立亮;鹿晓亮 | 申请(专利权)人: | 安徽科大讯飞信息科技股份有限公司 |
主分类号: | G10L15/08 | 分类号: | G10L15/08 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 成金玉;贾玉忠 |
地址: | 230088 安徽省*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 class base 语言 模型 poi 语音 识别 方法 | ||
技术领域
本发明涉及一种连续语音识别中对POI业务的识别方案,尤其是在计算资源和存储空间有限的情况下,本发明能够有效的支持多种不同说法。
背景技术
随着语音识别技术的流行,人们越来越习惯使用POI(point of interest,即导航地图信息)语音识别功能来查找自己想去的地点。由于人们的说话习惯和方式多种多样,为了满足人们的需求,需要支持多种说法的识别。POI识别大都在一些嵌入式设备(如手机,车机)中进行,计算资源和存储空间都是十分有限的。在使用传统的语言模型的语音识别中,支持单一说法效果较好,但是支持多种说法会造成模型过大,效率底下等问题。
传统的POI语音识别具体实现方法如图1所示,首先设计用户说法,将用户说法和核心地名进行文本拓展,即将所有的核心地名填充到说法模型中,然后再用拓展后的文本训练语言模型,最后采用语言模型进行语音识别。
现有进行POI语音识别的方法存在很大的弊端:(1)传统的扩展文本方式会导致文本非常大,给训练的过程带来很大的困难。对于,“我想去A市的B地点”这个说法,如果城市列表A中文本的条目为Count(A),地点列表B中文本的条目为Count(B),那么在同时存在城市和地点的语料,需要扩展的条目数是Count(A)*Count(B),这给训练模型造成了很大的开销;(2)利用传统的语言模型训练办法,说法将被重复很多次,这将对识别核心名称造成干扰,导致将一些核心名称识别成说法;(3)车载,手机识别,往往是本地识别,只能利用很有限的计算空间和存储空间去解决问题,如此大的模型将会给机器的识别带来很大负担,造成效率降低等问题。
发明内容
本发明技术解决问题:克服现有技术的不足,提供一种基于class-base(基于类别)语言模型的POI语音识别方法,能够在十分有限的计算资源和存储空间的情况下,实现多种说法的支持,明确区分说法和核心词汇,在保证占用较小资源的前提下,提高识别效果。
本发明技术解决方案:一种基于class-base语言模型的POI语音识别方法,其实现步骤如下:
(1)准备模型训练的文本
要完成语言模型的训练,需要许多无错误,规范的文本,语言模型训练工作可以看成是用机器向这些文本学习知识的过程。为了保证被学习的知识是正确的,需要除去文本中的脏数据。即,对从网络上获取的识别相关文本进行清洗,除去文本中的错字,乱码等。并将希腊数字,阿拉伯数字等转换为汉字,并将文本的编码格式设置为一致的。
(2)通用POI地点语言模型训练
首先需要介绍一下统计语言模型的概念。统计语言模型(Statistical Language Model)在连续语音识别中的作用,简单来说是用于计算一个句子的概率,即P(W1,W2...,Wk),利用语言模型确定词序列的可能性,或者给定若干个词,可以预测下一个最可能出现的词语,给定句子S(词序列S=W1,W2,...,Wk)的概率利用语言模型可以表示为P(S)=P(W1,W2,...,Wk)=p(W1)P(W2|W1)...P(Wk|W1,Wk,...,Wk-1),由于上式中的参数过多,因此采用了一种常用的近似计算方法,即N-Gram模型方法。语音识别技术是基于统计语言模型的,语音识别需要通过语言模型获取词序列信息。
通用POI地点语言模型,可以看成是从所有地点信息的文本中学习POI知识。
将(1)中整理后的地点信息文本训练成统计语言模型,模型训练的步骤示意图如图2所示,说明如下,首先需要分词操作,有一个分词词典,即包含所有用户可能说的词语和字的列表。将每一行文本即将文本A1,A2,A3……An,其中A1,A2,A3……An为每个汉字或者字母,我们去词典中查找这些汉字或者字母能够形成的词的序列,从而实现分词,将分词之后的结果用空格隔开,即A1A2,A3A4……等。
将分词之后的文本中的词序列信息提取出来,例如,设有词序列B1,B2,B3(其中,B1,B2,B3全部是分词词典中的词),那我们可以将P(B3|B1B2)的信息存储到词典树(Trie树)中即可,这个词典树,也就是N-Gram模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽科大讯飞信息科技股份有限公司,未经安徽科大讯飞信息科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310342171.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种防锈切削液及其制备方法
- 下一篇:电脑针织横编机的纱线张力调整装置