[发明专利]一种识别口语冗余成分的方法及装置有效
申请号: | 202110727309.0 | 申请日: | 2021-06-29 |
公开(公告)号: | CN113468305B | 公开(公告)日: | 2023-04-28 |
发明(设计)人: | 简仁贤;范敏;苏畅;吴文杰 | 申请(专利权)人: | 竹间智能科技(上海)有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F16/35;G06F40/242;G06N20/00 |
代理公司: | 上海湾谷知识产权代理事务所(普通合伙) 31289 | 代理人: | 倪继祖 |
地址: | 200030 上海市徐*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 识别 口语 冗余 成分 方法 装置 | ||
本发明公开了一种识别口语冗余成分的方法及装置,方法包括:接收口语语料库和训练语料;将所述口语语料库中的冗余成分进行分类,获得多余成分和重复成分;根据预设场景以及所述多余成分,对所述训练语料进行训练,获得多余成分识别模型;根据所述重复成分,对所述训练语料进行训练,获得重复成分识别模型;利用多余成分识别模型和重复成分识别模型对口语文本进行识别,获得标识有冗余成分的口语文本。本发明能够解决现有技术中口语冗余成分界定不清以及误识别的问题。
技术领域
本发明涉及自然语言处理技术领域,尤其涉及识别口语冗余成分的方法及装置。
背景技术
口语对话场景是自然语言处理领域中比较重要、常见的一项。在口语对话场景中,经过ASR(语音识别)转译之后,文本往往带有很多冗余成分。冗余成分典型的语气词或叹词、指代词、标点符号、重复成分等等,这些冗余内容会影响后续的自然语言理解,需要进行识别。但是,现有技术主要采用规则方法对语气词叹词、重复成分、标点符号进行识别,利用机器学习或深度学习模型对其他冗余成分进行识别,但是,规则方法一方面对冗余成分的界定不够清楚,容易出错;另一方面所用规则过于粗暴,某些冗余候选词并不是在所有场景中都需要被识别,规则方法无法做到动态判断。
发明内容
本发明的目的在于提供一种识别口语冗余成分的方法及装置,解决口语冗余成分界定不清以及误识别的问题。
实现上述目的的技术方案是:
本申请提供一种识别口语冗余成分的方法,包括:
接收口语语料库和训练语料;
将所述口语语料库中的冗余成分进行分类,获得多余成分和重复成分;
根据预设场景以及所述多余成分,对所述训练语料进行训练,获得多余成分识别模型;
根据所述重复成分,对所述训练语料进行训练,获得重复成分识别模型;
利用多余成分识别模型和重复成分识别模型对口语文本进行识别,获得标识有冗余成分的口语文本。
在一实施例中,所述根据预设场景以及所述多余成分,对所述训练语料进行训练,获得多余成分识别模型,包括:
汇总所述多余成分中的常规多余成分,获得通用词典;
汇总与预设场景相关的多余成分,获得自定义词典;
利用所述通用词典和自定义词典对所述训练语料中需要识别的多余成分进行标注;
使用标注后的训练语料进行训练,获得多余成分识别模型。
在一实施例中,所述利用所述通用词典和自定义词典对所述训练语料中需要识别的多余成分进行标注,包括:
根据通用词典,标识所述训练语料中的常规多余成分为第一符号;
根据自定义词典,标识所述训练语料中与预设场景相关的多余成分为第二符号;
根据第一预设规则,对需要标注的所述第一符号和第二符号对应的多余成分进行标注。
在一实施例中,所述多余成分包括:语气词、叹词、标点符号和指代成分。
在一实施例中,所述汇总与预设场景相关的多余成分,获得自定义词典之后,还包括:
若自定义词典包含适用于通用词典的常规多余成分,将该常规多余成分加入通用词典。
在一实施例中,所述根据所述重复成分,对所述训练语料进行训练,获得重复成分识别模型,包括:
根据所述重复成分,对训练语料中需要识别的重复成分进行标注;
使用标注后的训练语料进行训练,获得重复成分识别模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于竹间智能科技(上海)有限公司,未经竹间智能科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110727309.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种快速生产超细铁粉的方法
- 下一篇:一种用于加州鲈鱼饲料的冷却器