[发明专利]语料清洗方法、语料录入设备及计算机可读存储介质在审

专利信息
申请号: 201911379646.4 申请日: 2019-12-27
公开(公告)号: CN111191450A 公开(公告)日: 2020-05-22
发明(设计)人: 马力;熊友军 申请(专利权)人: 深圳市优必选科技股份有限公司
主分类号: G06F40/289 分类号: G06F40/289;G06F40/30;G06N3/04
代理公司: 深圳市威世博知识产权代理事务所(普通合伙) 44280 代理人: 李莉
地址: 518000 广东省深圳市南山区*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 语料 清洗 方法 录入 设备 计算机 可读 存储 介质
【说明书】:

本申请公开了一种语料请求方法、语料录入设备及计算机可读存储介质,该语料清洗方法包括:获取输入的语料;由预先训练好的通用模型对语料中各个词汇的信息含量进行预测以获取各个词汇的信息含量预测值;根据各个词汇的信息含量预测值而确定冗余词汇,并进一步确定是否将冗余词汇从语料中去除。本申请所提供的语料清洗方法能够提高语料清洗时的客观性和准确性。

技术领域

本申请涉及语料清洗技术领域,特别是涉及一种语料清洗方法、语料录入设备及计算机可读存储介质。

背景技术

在面向用户的人机对话开放式平台中,需要商户针对不同场景和意图录入相应的训练语料,而后系统利用这些训练语料进行训练,在实际对话场景中利用训练得到的模型对终端用户输入的话语进行识别。

这类开放式平台面临的一个技术难点是商户掌握的语料往往非常有限,在训练语料稀疏的情况下,机器学习系统可能学习到一些本来与意图判别无关,但却只存在于某类意图的语料中的词汇特征,并在进行判别时过于依赖这些特征。举例来说,假设商户在平台中创建了“查询天气”和“查询航班”两个意图,而在录入语料时只在“查询天气”意图中出现了“请问”这个前缀,那么当对“请问我的航班几点起飞”这句话进行意图识别时,系统可能仅仅因为语句中出现了“请问”一词,就把意图判定为“查询天气”,这显然是不合理的。

目前针对该现象一个直接的解决方案是构建停用词表,在进行训练和预测时把无关词汇去除,目前网上有很多停用词表供下载,但这些停用词表不是针对于对话系统中的意图识别任务特别整理的,此外,一个词语能否从一句话里去除而不影响语义,不仅取决于其字面构成,还取决于上下文的信息。例如,“请问今天会下雨吗”这句话里去掉“请问”不会对语义解析造成任何干扰,但在“我想听‘请问’这首歌”中,如果把“请问”去掉,则会对语义解析造成干扰。因此目前的这种解决方法存在缺陷。

发明内容

本申请主要解决的技术问题是提供一种语料清洗方法、语料录入设备及计算机可读存储介质,能够提高语料清洗时的客观性和准确性。

为解决上述技术问题,本申请采用的一个技术方案是:提供一种语料清洗方法,所述方法包括:获取输入的语料;由预先训练好的通用模型对所述语料中各个词汇的信息含量进行预测以获取各个词汇的信息含量预测值;根据所述各个词汇的信息含量预测值而确定冗余词汇,并进一步确定是否将所述冗余词汇从所述语料中去除。

为解决上述技术问题,本申请采用的另一个技术方案是:提供一种语料录入设备,包括处理器、存储器以及通信电路,所述处理器分别耦接所述存储器以及所述通信电路,所述处理器通过执行所述存储器内的程序指令以实现上述方法中的步骤。

为解决上述技术问题,本申请采用的另一个技术方案是:提供一种计算机可读存储介质,存储有程序指令,所述程序指令能够被处理器执行以实现如上述方法中的步骤。

本申请的有益效果是:本申请利用预先训练并达到收敛的通用模型对语料中各词汇的信息含量进行预测,从而根据预测的结果将冗余词汇从语料中去除,达到清洗语料的目的,相比较停用词表的构建具有主观性和随意性,通用模型由于预先训练并达到收敛,其客观性和严谨性更强,因此能够保证清洗语料时的客观性和准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。其中:

图1是本申请语料清洗方法一实施方式的流程示意图;

图2是图1实施方式中的部分具体流程示意图;

图3是本申请语料录入设备一实施方式的结构示意图;

图4是本申请计算机可读存储介质一实施方式的结构示意图。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市优必选科技股份有限公司,未经深圳市优必选科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911379646.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top