[发明专利]弹幕数据处理方法、装置、设备以及存储介质在审
申请号: | 202011481327.7 | 申请日: | 2020-12-15 |
公开(公告)号: | CN112417895A | 公开(公告)日: | 2021-02-26 |
发明(设计)人: | 邓迪;陈健生;熊清亮 | 申请(专利权)人: | 广州博冠信息科技有限公司 |
主分类号: | G06F40/35 | 分类号: | G06F40/35;G06K9/62 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 张娜;刘芳 |
地址: | 510663 广东省广州市天*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 弹幕 数据处理 方法 装置 设备 以及 存储 介质 | ||
本申请提供一种弹幕数据处理方法、装置、设备以及存储介质,计算已获取的预设数量的训练弹幕数据之间的相似度,根据相似度进行聚类,以得到多个训练弹幕数据簇,根据多个训练弹幕数据簇分别获得第一目标训练样本和第二目标训练样本,采用第一目标训练样本对处理模型进行训练,以及采用第二目标训练样本对判别模型进行训练,以得到已训练的处理模型和已训练的判别模型,根据所获得已训练的处理模型和已训练的判别模型可以输出多样性高、语句通顺以及与当前弹幕数据语义接近的相似弹幕数据。
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种弹幕数据处理方法、装置、设备以及存储介质。
背景技术
在自然语言处理(Natural Language Processing,简称NLP)领域,服务机器人的语料数据库或者模型训练都需要大量的样本数据,样本数据的质量和数量影响着模型的质量或者语料数据库的质量。
样本数据标注成本较高,通常情况下采用数据处理方法来扩充样本数据。以弹幕数据为例,现有技术中,通常采用随机换词、随机语序变换、随机词插入、随机删除等数据增强方式。其中,随机换词是指在弹幕数据中随机选择其中的词语替换成备选库中意思相近的词语。随机语序变化是指在弹幕数据中随机选择其中词语进行位置变换。随机词插入是指在弹幕数据中随机选择一个位置插入备选库中的词语。随机删除是指在弹幕数据中随机选择一个词进行删除。
然而,由于现有技术是是采用随机方式,导致经过数据增强后得到的弹幕数据语句不通顺,另外,随机插入或者随机换词的方式受限于备选词库大小,使得弹幕数据多样性差。
发明内容
本申请提供一种弹幕数据处理方法、装置、设备以及存储介质,该方案所生成的弹幕数据语句通顺,无需使用备选数据库,提高弹幕数据的多样性。
第一方面,本申请提供一种弹幕数据处理方法,包括:
计算已获取的预设数量的训练弹幕数据之间的相似度;
根据相似度进行聚类,以得到多个训练弹幕数据簇;
根据多个训练弹幕数据簇分别获得第一目标训练样本和第二目标训练样本;
采用第一目标训练样本对处理模型进行训练,以及采用第二目标训练样本对判别模型进行训练,以得到已训练的处理模型和已训练的判别模型。
可选地,计算已获取的预设数量的训练弹幕数据之间的相似度,具体包括:
获得任意两个训练弹幕数据之间的第一双语互译质量评估指标以及第二双语互译质量评估指标;
根据第一双语互译质量评估指标和第二双语互译质量评估指标计算获得任意两个训练弹幕数据之间的相似度;
其中,第一双语互译质量评估指标是以其中一个训练弹幕数据为参考标准时获得的,第二双语互译质量评估指标是以另一个训练弹幕数据为参考标准时获得的。
可选地,根据第一双语互译质量评估指标和第二双语互译质量评估指标计算获得任意两个训练弹幕数据之间的相似度,具体包括:
根据第一公式计算获得两个训练弹幕数据之间的相似度,其中,第一公式具体为:
d=0.5[unigram_blue(a,b)+unigram_blue(b,a)]
其中,d表示相似度,a和b均表示训练弹幕数据,unigram_blue()表示一元双语互译质量评估指标算法。
可选地,第二目标训练样本包括正训练样本和负训练样本;根据多个训练弹幕数据簇获得第二目标训练样本,具体包括:
对位于相同训练弹幕数据簇中两个训练弹幕数据组合获得正训练样本;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州博冠信息科技有限公司,未经广州博冠信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011481327.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:重型气体机的钢活塞结构
- 下一篇:一种便于施工安装的LED路灯