[发明专利]一种基于class-base语言模型的POI语音识别方法有效

申请号：	201310342171.8	申请日：	2013-08-07
公开（公告）号：	CN103456300A	公开（公告）日：	2013-12-18
发明（设计）人：	唐立亮;鹿晓亮	申请（专利权）人：	安徽科大讯飞信息科技股份有限公司
主分类号：	G10L15/08	分类号：	G10L15/08
代理公司：	北京科迪生专利代理有限责任公司 11251	代理人：	成金玉;贾玉忠
地址：	230088 安徽省***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及一种基于class-base语言模型的POI语音识别方法，步骤为：准备模型训练的文本；通用POI地点语言模型训练；多种说法的整理和设计，通过收集POI搜索用户的说法习惯并按行进行整理，模拟真实用户的说法和使用需求；说法文本的整理和类的利用；语言模型插值合并，合并后语言模型打包并用于语音识别，对合并之后的模型打包形成二进制的格式，方便保密和保存，生成可供语音识别使用的格式。本发明能够在十分有限的计算资源和存储空间的情况下，实现多种说法的支持，明确区分说法和核心词汇，在保证占用较小资源的前提下，提高识别效果。
搜索关键词：	一种基于 class base 语言模型 poi 语音识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于class‑base语言模型的POI语音识别方法，其实现步骤如下：（1）准备模型训练的文本从网络上获取的识别相关地点信息的文本进行清洗，除去文本中的错字和乱码，再将希腊数字、阿拉伯数字转换为汉字，并将文本的编码格式设置一致；（2）通用POI地点语言模型训练（21）将步骤（1）中整理后的地点信息文本训练成统计语言模型，具体为：首先需要分词操作，有一个分词词典，即包含所有用户可能说的词语和字的列表；将每一行文本在词典中查找这些汉字或者字母能够形成的词的序列，实现分词，将分词之后的结果用空格隔开；（22）将分词之后的文本中的词序列信息提取出来，提取的信息存储到词典树中，所述词典树即是N‑Gram模型，所述统计语言模型即N‑Gram模型称之为POI地点模型；（3）多种说法的整理和设计，通过收集POI搜索用户的说法习惯并按行进行整理，模拟真实用户的说法和使用需求；（4）说法文本的整理和类的利用，将用户的说法文本整理好后，将其中不同的类别的地名用类别标示符表示出来，将类别标示符对应的各个地点信息文本中的各个地点名称按照开头和结尾的词不同进行分类，同时选择开头相同或者结尾相同的每类中选取出一个频率最大的词，作为此类的代表；由于统计语言模型关注的词序列信息，其中相邻两个词的词序列信息是最重要的，所以选出的频率最大的词即是这类的代表，用这些代表来扩展文本，扩展后的文本称之为说法文本，该说法文本是训练说法模型的语料；（5）将步骤（4）中的说法文本，按照步骤（2）中训练通用POI地点语言模型的方法，训练成统计语言模型，称之为说法模型；（6）语言模型插值合并，把步骤（2）通用POI地点语言模型和步骤（5）中的说法模型插值，即将地点模型和说法模型合并起来；（7）将步骤（6）中得到的合并后语言模型打包并用于语音识别，对合并之后的模型打包形成二进制的格式，方便保密和保存，生成可供语音识别使用的格式。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于安徽科大讯飞信息科技股份有限公司，未经安徽科大讯飞信息科技股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201310342171.8/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于class-base语言模型的POI语音识别方法有效

专利文献下载