[发明专利]语料清洗方法、语料录入设备及计算机可读存储介质在审
申请号: | 201911379646.4 | 申请日: | 2019-12-27 |
公开(公告)号: | CN111191450A | 公开(公告)日: | 2020-05-22 |
发明(设计)人: | 马力;熊友军 | 申请(专利权)人: | 深圳市优必选科技股份有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06N3/04 |
代理公司: | 深圳市威世博知识产权代理事务所(普通合伙) 44280 | 代理人: | 李莉 |
地址: | 518000 广东省深圳市南山区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语料 清洗 方法 录入 设备 计算机 可读 存储 介质 | ||
1.一种语料清洗方法,其特征在于,所述方法包括:
获取输入的语料;
由预先训练好的通用模型对所述语料中各个词汇的信息含量进行预测以获取各个词汇的信息含量预测值;
根据所述各个词汇的信息含量预测值而确定冗余词汇,并进一步确定是否将所述冗余词汇从所述语料中去除。
2.根据权利要求1所述的方法,其特征在于,所述由预先训练好的通用模型对所述语料中各个词汇的信息含量进行预测以获取各个词汇的信息含量预测值的步骤之前,进一步包括:
获取多个样本语料;
获取所述样本语料中各个词汇的信息含量;
利用所述多个样本语料以及所述样本语料中词汇的信息含量对所述通用模型训练。
3.根据权利要求2所述的方法,其特征在于,所述获取所述样本语料中各个词汇的信息含量的步骤,包括:
由预先训练好的意图识别模型对所述样本语料在各个意图类别上的概率进行预测而得到第一概率向量;
由所述意图识别模型对分别去除各个词汇后的样本语料在各个意图类别上的概率进行预测而分别得到所述词汇各自对应的第二概率向量;
根据所述第一概率向量和所述词汇各自对应的第二概率向量得到所述词汇各自的信息增益率;
对包括所有所述词汇的信息增益率的序列进行归一化处理而得到所述词汇各自的信息含量。
4.根据权利要求3所述的方法,其特征在于,所述根据所述第一概率向量和所述词汇各自对应的第二概率向量得到所述词汇各自的信息增益率的步骤,包括:
计算所述第一概率向量和所述词汇各自对应的第二概率向量的欧式距离而得到所述词汇各自的信息增益率,或者,计算所述第一概率向量和所述词汇各自对应的第二概率向量的相对熵而得到所述词汇各自的信息增益率。
5.根据权利要求3所述的方法,其特征在于,
所述获取多个样本语料的步骤,包括:
获取初始语料;
若所述初始语料包括词槽,则从所述词槽对应的词典中随机抽取一词汇对所述词槽进而填充而得到所述样本语料;
若所述初始语料不包括词槽,则直接将所述初始语料作为所述样本语料;
所述对包括所有所述词汇的信息增益率的序列进行归一化处理而得到所述词汇各自的信息含量的步骤之后,还包括:
判断所述样本语料中的所述词汇是否是经过对所述初始语料中的词槽进行填充而得到的;
若判断结果为是,则将所述词汇的信息含量更新为1;
若判断结果为否,则保持所述词汇的信息含量不变。
6.根据权利要求2所述的方法,其特征在于,所述通用模型的结构为双向LSTM网络模型或双向GRU网络模型,在训练的过程中,所述通用模型使用Binary Cross Entropy作为损失函数。
7.根据权利要求1所述的方法,其特征在于,所述根据所述各个词汇的信息含量预测值而确定冗余词汇,并进一步确定是否将所述冗余词汇从所述语料中去除的步骤之前,还包括:
显示所述语料,其中所述语料中各个词汇的背景色深度与所述词汇的信息含量预测值对应。
8.根据权利要求7所述的方法,其特征在于,所述根据所述各个词汇的信息含量预测值而确定冗余词汇,并进一步确定是否将所述冗余词汇从所述语料中去除的步骤,包括:
将用户选中的词汇从所述语料中去除,或者,响应于触发指令,将信息含量预测值低于预测值阈值的词汇从所述语料中去除。
9.一种语料录入设备,其特征在于,包括处理器、存储器以及通信电路,所述处理器分别耦接所述存储器以及所述通信电路,所述处理器通过执行所述存储器内的程序指令以实现如权利要求1至8任一项所述方法中的步骤。
10.一种计算机可读存储介质,其特征在于,存储有程序指令,所述程序指令能够被处理器执行以实现如权利要求1至8任一项所述方法中的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市优必选科技股份有限公司,未经深圳市优必选科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911379646.4/1.html,转载请声明来源钻瓜专利网。