[发明专利]一种基于语音识别的文本处理方法和装置在审

申请号：	201510982716.0	申请日：	2015-12-23
公开（公告）号：	CN105609107A	公开（公告）日：	2016-05-25
发明（设计）人：	曹松军	申请（专利权）人：	北京奇虎科技有限公司;奇智软件（北京）有限公司
主分类号：	G10L15/26	分类号：	G10L15/26;G06F17/27;G06F17/30
代理公司：	北京润泽恒知识产权代理有限公司 11319	代理人：	赵娟
地址：	100088 北京市西城区新***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于语音识别文本处理方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于语音识别的文本处理方法，包括：

获取对语音数据进行语音识别获得的第一文本；

对所述第一文本进行断句，获得一个或多个文本片段；

对所述一个或多个文本片段添加标点符号，组合成第二文本。

2.如权利要求1所述的方法，其特征在于，所述对所述第一文本进行断句，获得一个或多个文本片段的步骤包括：

对所述第一文本进行切词处理，获得一个或多个字；

识别所述一个或多个字的词位置；

在所述第一文本的指定的词位置处进行断句，获得一个或多个文本片段。

3.如权利要求2所述的方法，其特征在于，所述识别所述一个或多个字的词位置的步骤包括：

按照字的顺序，按照前一个字的每一个词位置的概率，计算出后一个字的每一个词位置的概率；

按照字的逆序，按照后一个字基于概率标注的词位置，标注出前一个字的词位置。

4.如权利要求3所述的方法，其特征在于，所述按照字的顺序，按照前一个字的每一个词位置的概率，计算出后一个字的每一个词位置的概率的步骤包括：

通过预设的序列标注模型，计算出第1个字的每个词位置的概率；

通过预设的序列标注模型，基于第i-1个字的每个词位置的概率，计算出第i个字的每个词位置的概率，i为大于1的正整数；

针对第i个字的每个词位置的概率，以值最高的概率作为所述词位置的概率。

5.如权利要求4所述的方法，其特征在于，所述序列标注模型为条件随机场模型，基于训练文本及针对所述训练文本中的字标注的词位置训练生成，所述训练文本的标点符号被替换。

6.如权利要求3或4或5所述的方法，其特征在于，所述按照字的逆序，按照后一个字基于概率标注的词位置，标注出前一个字的词位置的步骤包括：

针对最后一个字，标注值最高的概率所属的词位置；

当第i个字确定词位置时，查询计算出第i个字词位置的概率的第i-1个字的概率，i为大于1的正整数；

针对第i-1个字，标注所述第i-1个字的概率所属的词位置。

7.如权利要求2或3或4或5所述的方法，其特征在于，所述词位置包括词首、词尾、词中、单字词中的一个或多个；

所述在所述第一文本的指定的词位置处进行断句的步骤包括：

在所述第一文本的词首和/或单字词之前进行断句；

和/或，

在所述第一文本的词尾和/或单字词之后进行断句。

8.如权利要求1或2或3或4或5所述的方法，其特征在于，所述对所述一个或多个文本片段添加标点符号的步骤包括：

针对每个文本片段，识别出关键词；

查找所述关键词对应的标点符号；

在所述文本片段之后添加所述标点符号。

9.一种基于语音识别的文本处理装置，包括：

第一文本获取模块，适于获取对语音数据进行语音识别获得的第一文本；

断句模块，适于对所述第一文本进行断句，获得一个或多个文本片段；

标点符号添加模块，适于对所述一个或多个文本片段添加标点符号，组合成第二文本。

10.如权利要求9所述的装置，其特征在于，所述断句模块还适于：

对所述第一文本进行切词处理，获得一个或多个字；

识别所述一个或多个字的词位置；

在所述第一文本的指定的词位置处进行断句，获得一个或多个文本片段。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件（北京）有限公司，未经北京奇虎科技有限公司;奇智软件（北京）有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201510982716.0/1.html，转载请声明来源钻瓜专利网。

上一篇：基于双谱加权空间相关矩阵的语音声源定位方法
下一篇：一种精炼钢包用低碳刚玉尖晶石砖及其制备方法

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于语音识别的文本处理方法和装置在审

专利文献下载