[发明专利]一种识别口语冗余成分的方法及装置有效
申请号: | 202110727309.0 | 申请日: | 2021-06-29 |
公开(公告)号: | CN113468305B | 公开(公告)日: | 2023-04-28 |
发明(设计)人: | 简仁贤;范敏;苏畅;吴文杰 | 申请(专利权)人: | 竹间智能科技(上海)有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F16/35;G06F40/242;G06N20/00 |
代理公司: | 上海湾谷知识产权代理事务所(普通合伙) 31289 | 代理人: | 倪继祖 |
地址: | 200030 上海市徐*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 识别 口语 冗余 成分 方法 装置 | ||
1.一种识别口语冗余成分的方法,其特征在于,包括:
接收口语语料库和训练语料;
将所述口语语料库中的冗余成分进行分类,获得多余成分和重复成分;
根据预设场景以及所述多余成分,对所述训练语料进行训练,获得多余成分识别模型;
根据所述重复成分,对所述训练语料进行训练,获得重复成分识别模型;
利用多余成分识别模型和重复成分识别模型对口语文本进行识别,获得标识有冗余成分的口语文本;
所述根据预设场景以及所述多余成分,对所述训练语料进行训练,获得多余成分识别模型,包括:
汇总所述多余成分中的常规多余成分,获得通用词典;
汇总与预设场景相关的多余成分,获得自定义词典;
利用所述通用词典和自定义词典对所述训练语料中需要识别的多余成分进行标注;
使用标注后的训练语料进行训练,获得多余成分识别模型。
2.根据权利要求1所述的识别口语冗余成分的方法,其特征在于,所述利用所述通用词典和自定义词典对所述训练语料中需要识别的多余成分进行标注,包括:
根据通用词典,标识所述训练语料中的常规多余成分为第一符号;
根据自定义词典,标识所述训练语料中与预设场景相关的多余成分为第二符号;
根据第一预设规则,对需要标注的所述第一符号和第二符号对应的多余成分进行标注。
3.根据权利要求1所述的识别口语冗余成分的方法,其特征在于,所述多余成分包括:语气词、叹词、标点符号和指代成分。
4.根据权利要求1或2所述的识别口语冗余成分的方法,其特征在于,所述汇总与预设场景相关的多余成分,获得自定义词典之后,还包括:
若自定义词典包含适用于通用词典的常规多余成分,将该常规多余成分加入通用词典。
5.根据权利要求1所述的识别口语冗余成分的方法,其特征在于,所述根据所述重复成分,对所述训练语料进行训练,获得重复成分识别模型,包括:
根据所述重复成分,对训练语料中需要识别的重复成分进行标注;
使用标注后的训练语料进行训练,获得重复成分识别模型。
6.根据权利要求5所述的识别口语冗余成分的方法,其特征在于,所述根据重复成分,对训练语料中需要识别的重复成分进行标注,包括:
对训练语料进行分词,获得分词结果;
根据所述分词结果,标识所述训练语料中的重复成分为第三符号;
根据第二预设规则,对需要标注的所述第三符号对应的重复成分进行标注。
7.根据权利要求1、2、5、6中任一所述的识别口语冗余成分的方法,其特征在于,所述利用多余成分识别模型和重复成分识别模型对口语文本进行识别,获得标识有口语冗余成分的口语文本,包括:
将口语文本输入多余成分识别模型,获得标识有多余成分的口语文本;
将口语文本输入重复成分识别模型,获得标识有重复成分的口语文本;
整合标识有多余成分的口语文本和标识有重复成分的口语文本,获得标识有冗余成分的口语文本。
8.根据权利要求1或5所述的识别口语冗余成分的方法,其特征在于,所述方法还包括:
将剔除冗余成分的口语文本输入语言模型,获得所述剔除冗余成分的口语文本中每个词的出现概率;
根据所述出现概率,确定所述剔除冗余成分的口语文本的困惑度;
在所述困惑度超出预设阈值时,修正识别结果;
其中,所述困惑度表征文本通顺程度。
9.一种识别口语冗余成分的装置,其特征在于,包括:
接收模块,接收口语语料库和训练语料;
冗余现象分类模块,将所述口语语料库中的冗余成分进行分类,获得多余成分和重复成分;
多余成分识别模型训练模块,根据预设场景以及所述多余成分,对所述训练语料进行训练,获得多余成分识别模型;
重复成分识别模型训练模块,根据所述重复成分,对所述训练语料进行训练,获得重复成分识别模型;
口语冗余成分识别模块,利用多余成分识别模型和重复成分识别模型对口语文本进行识别,获得标识有冗余成分的口语文本;
口语文本结构判断模块,将剔除冗余成分的口语文本输入语言模型,获得所述剔除冗余成分的口语文本中每个词的出现概率;根据所述出现概率,确定所述剔除冗余成分的口语文本的困惑度;在所述困惑度超出预设阈值时,修正识别结果;
多余成分识别模型训练模块包括:
通用词典模块,汇总所述多余成分中的常规多余成分,获得通用词典;
自定义词典模块,汇总与预设场景相关的多余成分,获得自定义词典;
第一标注模块,利用通用词典和自定义词典对训练语料中需要识别的多余成分进行标注;
多余成分识别模型模块,使用标注后的训练语料进行训练,获得多余成分识别模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于竹间智能科技(上海)有限公司,未经竹间智能科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110727309.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种快速生产超细铁粉的方法
- 下一篇:一种用于加州鲈鱼饲料的冷却器