[发明专利]样本筛选方法及电子设备在审

申请号：	202010558607.7	申请日：	2020-06-18
公开（公告）号：	CN113903340A	公开（公告）日：	2022-01-07
发明（设计）人：	杨晓帆;冯大航;陈孝良	申请（专利权）人：	北京声智科技有限公司
主分类号：	G10L15/26	分类号：	G10L15/26;G10L15/06;G10L25/51
代理公司：	北京银龙知识产权代理有限公司 11243	代理人：	黄灿;左晓菲
地址：	100098 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	样本筛选方法电子设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种样本筛选方法及电子设备，所述方法包括：对语音样本集中每个语音样本进行语音识别；将所述每个语音样本的语音识别结果分别与预设文本进行比对，得到所述每个语音样本对应的比对结果；基于所述每个语音样本对应的比对结果对所述语音样本集进行样本筛选。本发明实施例能够提高训练的模型的准确性。

技术领域

本发明涉及数据处理技术领域，尤其涉及一种样本筛选方法及电子设备。

背景技术

随着物联网技术的发展，智能家居越来越受到人们的欢迎。智能家居通过物联网将各种设备连接到一起，提供家电控制、照明控制、室内外遥控等多种功能和手段。通常采用语音方式实现人与智能家居设备的交互。

为实现人与智能家居设备之间的语音交互，需要采用语音训练样本对智能家居设备进行模型训练。目前，采用人工录制的语音进行模型训练，然而，人工录制的语音，可能会存在截断、录制人说错、录制被打断等问题。采用不准确的语音训练样本进行模型训练会导致训练的模型准确性较低。

发明内容

本发明实施例提供一种样本筛选方法及电子设备，以解决现有技术中采用不准确的语音训练样本进行模型训练会导致训练的模型准确性较低的问题。

为了解决上述技术问题，本发明是这样实现的：

第一方面，本发明实施例提供了一种样本筛选方法，应用于电子设备，所述方法包括：

对语音样本集中每个语音样本进行语音识别；

将所述每个语音样本的语音识别结果分别与预设文本进行比对，得到所述每个语音样本对应的比对结果；

基于所述每个语音样本对应的比对结果对所述语音样本集进行样本筛选。

第二方面，本发明实施例提供了一种电子设备，所述电子设备包括：

识别模块，用于对语音样本集中每个语音样本进行语音识别；

比对模块，用于将所述每个语音样本的语音识别结果分别与预设文本进行比对，得到所述每个语音样本对应的比对结果；

筛选模块，用于基于所述每个语音样本对应的比对结果对所述语音样本集进行样本筛选。

第三方面，本发明实施例提供了一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时实现如第一方面所述的样本筛选方法中的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的样本筛选方法中的步骤。

本发明实施例中，对语音样本集中每个语音样本进行语音识别；将所述每个语音样本的语音识别结果分别与预设文本进行比对，得到所述每个语音样本对应的比对结果；基于所述每个语音样本对应的比对结果对所述语音样本集进行样本筛选。这样，通过将所述每个语音样本的语音识别结果分别与预设文本进行比对，从而对所述语音样本集进行样本筛选，能够筛选掉不准确的语音训练样本，从而能够提高训练的模型的准确性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种样本筛选方法的流程图；

图2是本发明实施例提供的一种电子设备的结构示意图之一；

图3是本发明实施例提供的一种电子设备的结构示意图之二；

图4是本发明实施例提供的一种电子设备的结构示意图之三；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京声智科技有限公司，未经北京声智科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010558607.7/2.html，转载请声明来源钻瓜专利网。