[发明专利]弹幕数据处理方法、装置、设备以及存储介质在审

申请号：	202011481327.7	申请日：	2020-12-15
公开（公告）号：	CN112417895A	公开（公告）日：	2021-02-26
发明（设计）人：	邓迪;陈健生;熊清亮	申请（专利权）人：	广州博冠信息科技有限公司
主分类号：	G06F40/35	分类号：	G06F40/35;G06K9/62
代理公司：	北京同立钧成知识产权代理有限公司 11205	代理人：	张娜;刘芳
地址：	510663 广东省广州市天***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	弹幕数据处理方法装置设备以及存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提供一种弹幕数据处理方法、装置、设备以及存储介质，计算已获取的预设数量的训练弹幕数据之间的相似度，根据相似度进行聚类，以得到多个训练弹幕数据簇，根据多个训练弹幕数据簇分别获得第一目标训练样本和第二目标训练样本，采用第一目标训练样本对处理模型进行训练，以及采用第二目标训练样本对判别模型进行训练，以得到已训练的处理模型和已训练的判别模型，根据所获得已训练的处理模型和已训练的判别模型可以输出多样性高、语句通顺以及与当前弹幕数据语义接近的相似弹幕数据。

技术领域

本申请涉及自然语言处理技术领域，尤其涉及一种弹幕数据处理方法、装置、设备以及存储介质。

背景技术

在自然语言处理(Natural Language Processing，简称NLP)领域，服务机器人的语料数据库或者模型训练都需要大量的样本数据，样本数据的质量和数量影响着模型的质量或者语料数据库的质量。

样本数据标注成本较高，通常情况下采用数据处理方法来扩充样本数据。以弹幕数据为例，现有技术中，通常采用随机换词、随机语序变换、随机词插入、随机删除等数据增强方式。其中，随机换词是指在弹幕数据中随机选择其中的词语替换成备选库中意思相近的词语。随机语序变化是指在弹幕数据中随机选择其中词语进行位置变换。随机词插入是指在弹幕数据中随机选择一个位置插入备选库中的词语。随机删除是指在弹幕数据中随机选择一个词进行删除。

然而，由于现有技术是是采用随机方式，导致经过数据增强后得到的弹幕数据语句不通顺，另外，随机插入或者随机换词的方式受限于备选词库大小，使得弹幕数据多样性差。

发明内容

本申请提供一种弹幕数据处理方法、装置、设备以及存储介质，该方案所生成的弹幕数据语句通顺，无需使用备选数据库，提高弹幕数据的多样性。

第一方面，本申请提供一种弹幕数据处理方法，包括：

计算已获取的预设数量的训练弹幕数据之间的相似度；

根据相似度进行聚类，以得到多个训练弹幕数据簇；

根据多个训练弹幕数据簇分别获得第一目标训练样本和第二目标训练样本；

采用第一目标训练样本对处理模型进行训练，以及采用第二目标训练样本对判别模型进行训练，以得到已训练的处理模型和已训练的判别模型。

可选地，计算已获取的预设数量的训练弹幕数据之间的相似度，具体包括：

获得任意两个训练弹幕数据之间的第一双语互译质量评估指标以及第二双语互译质量评估指标；

根据第一双语互译质量评估指标和第二双语互译质量评估指标计算获得任意两个训练弹幕数据之间的相似度；

其中，第一双语互译质量评估指标是以其中一个训练弹幕数据为参考标准时获得的，第二双语互译质量评估指标是以另一个训练弹幕数据为参考标准时获得的。