[发明专利]一种识别口语冗余成分的方法及装置有效

申请号：	202110727309.0	申请日：	2021-06-29
公开（公告）号：	CN113468305B	公开（公告）日：	2023-04-28
发明（设计）人：	简仁贤;范敏;苏畅;吴文杰	申请（专利权）人：	竹间智能科技（上海）有限公司
主分类号：	G06F16/332	分类号：	G06F16/332;G06F16/33;G06F16/35;G06F40/242;G06N20/00
代理公司：	上海湾谷知识产权代理事务所(普通合伙) 31289	代理人：	倪继祖
地址：	200030 上海市徐***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种识别口语冗余成分方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种识别口语冗余成分的方法及装置，方法包括：接收口语语料库和训练语料；将所述口语语料库中的冗余成分进行分类，获得多余成分和重复成分；根据预设场景以及所述多余成分，对所述训练语料进行训练，获得多余成分识别模型；根据所述重复成分，对所述训练语料进行训练，获得重复成分识别模型；利用多余成分识别模型和重复成分识别模型对口语文本进行识别，获得标识有冗余成分的口语文本。本发明能够解决现有技术中口语冗余成分界定不清以及误识别的问题。

技术领域

本发明涉及自然语言处理技术领域，尤其涉及识别口语冗余成分的方法及装置。

背景技术

口语对话场景是自然语言处理领域中比较重要、常见的一项。在口语对话场景中，经过ASR(语音识别)转译之后，文本往往带有很多冗余成分。冗余成分典型的语气词或叹词、指代词、标点符号、重复成分等等，这些冗余内容会影响后续的自然语言理解，需要进行识别。但是，现有技术主要采用规则方法对语气词叹词、重复成分、标点符号进行识别，利用机器学习或深度学习模型对其他冗余成分进行识别，但是，规则方法一方面对冗余成分的界定不够清楚，容易出错；另一方面所用规则过于粗暴，某些冗余候选词并不是在所有场景中都需要被识别，规则方法无法做到动态判断。

发明内容

本发明的目的在于提供一种识别口语冗余成分的方法及装置，解决口语冗余成分界定不清以及误识别的问题。

实现上述目的的技术方案是：

本申请提供一种识别口语冗余成分的方法，包括：

接收口语语料库和训练语料；

将所述口语语料库中的冗余成分进行分类，获得多余成分和重复成分；

根据预设场景以及所述多余成分，对所述训练语料进行训练，获得多余成分识别模型；

根据所述重复成分，对所述训练语料进行训练，获得重复成分识别模型；

利用多余成分识别模型和重复成分识别模型对口语文本进行识别，获得标识有冗余成分的口语文本。

在一实施例中，所述根据预设场景以及所述多余成分，对所述训练语料进行训练，获得多余成分识别模型，包括：

汇总所述多余成分中的常规多余成分，获得通用词典；

汇总与预设场景相关的多余成分，获得自定义词典；