[发明专利]语音识别后文本的纠错方法及纠错装置有效

申请号：	201710256101.9	申请日：	2017-04-19
公开（公告）号：	CN107045496B	公开（公告）日：	2021-01-05
发明（设计）人：	洪光华;刘兆来	申请（专利权）人：	畅捷通信息技术股份有限公司
主分类号：	G06F40/211	分类号：	G06F40/211;G06F40/216;G06F40/242;G06F40/253;G06F40/289;G06F16/33;G06F16/35;G10L15/26
代理公司：	北京友联知识产权代理事务所(普通合伙) 11343	代理人：	尚志峰;汪海屏
地址：	100094 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音识别文本纠错方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种语音识别后文本的纠错方法，其特征在于，包括：

对所述语音识别后文本进行预处理；

对预处理后的文本进行搜索意图的识别；

根据识别出的所述搜索意图，确定待抽取的属性信息，从所述预处理后的文本中抽取所述属性信息；

计算所述属性信息与候选词库中任一候选词的相似度，根据所述相似度对抽取出的所述属性信息进行纠错；

所述根据识别出的所述搜索意图，确定待抽取的属性信息，从所述预处理后的文本中抽取所述属性信息的具体步骤，包括：

根据所述待抽取的属性信息，从所述预处理后的文本中识别待抽取的属性片段；

获取所述待抽取的属性信息对应的抽取模板及上下文关键词，根据所述抽取模板的权重及所述上下文关键词的权重，计算每个所述待抽取的属性片段的分值；

将所述分值按照由高到低的顺序进行排序，抽取出排列在第一位的所述分值对应的所述待抽取的属性片段，作为所述属性信息；

所述权重的计算公式为：

其中，c(x,y)表示训练数据中有效特征y与属性信息x同时出现的次数，c(x)表示训练数据中所述属性信息x出现的次数；

所述待抽取的属性片段的分值的计算公式为：

其中，c(i)表示上下文关键词i对于所述属性信息的权重，p(j)表示抽取模板j对所述属性信息的权重。

2.根据权利要求1所述的语音识别后文本的纠错方法，其特征在于，所述预处理的具体步骤，包括：

将纠错词典内若干词汇与所述语音识别后文本进行比对，当所述纠错词典内的某一词汇存在于所述语音识别后文本中，则直接用所述纠错词典内的某一词汇对应的正确词汇替换所述语音识别后文本中与所述纠错词典内的某一词汇相同的词汇；

删除所述语音识别后文本中包含的语气词；

删除所述语音识别后文本中包含的标点。

3.根据权利要求1所述的语音识别后文本的纠错方法，其特征在于，所述对预处理后的文本进行搜索意图的识别的具体步骤，包括：

将所述预处理后的文本与搜索意图识别模板库内的模板进行比对，当所述预处理后的文本与所述搜索意图识别模板库内的某一模板匹配时，将所述模板库内的某一模板作为所述搜索意图识别的结果；

当所述预处理后的文本与所述搜索意图识别模板库内的任一模板均不匹配时，抽取所述预处理后的文本的有效特征，将所述有效特征带入预设的分类器模型中进行分类，将得到的类别作为所述搜索意图识别的结果；

其中，所述有效特征包括搜索语法、特征词位置关系、句子结构。

4.根据权利要求1所述的语音识别后文本的纠错方法，其特征在于，所述根据识别出的搜索意图，从所述预处理后的文本中抽取属性信息的具体步骤，还包括：

对所述待抽取的属性片段进行分词并标注词性；

当所述词性为姓名的词语时，判断所述词语的长度是否小于2个字，当判断结果为否时，直接抽取所述待抽取属性信息片段，作为姓名属性信息；否则

判断所述词语的首字符是否存在于姓氏字典中，当所述词语的首字符存在于所述姓氏词典中时，则判断所述词语后面的相邻词语是否为单字或两个字，在判断结果为是时，将所述词语与所述词语后面的相邻词语进行合并，作为所述姓名属性信息；

当所述词语后面的相邻词语大于两个字时，则判断所述词语前面的相邻词语是否为单字，并在判断结果为是时，将所述词语与所述词语前面的相邻词语进行合并，作为所述姓名属性信息。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于畅捷通信息技术股份有限公司，未经畅捷通信息技术股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710256101.9/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载