[发明专利]电商评论分类任务中数据集的建立和后续优化及扩充方案有效

专利信息
申请号: 201910375040.7 申请日: 2019-05-07
公开(公告)号: CN110096574B 公开(公告)日: 2023-08-15
发明(设计)人: 郑圆;丁丁;李平章;王航 申请(专利权)人: 上海宝尊电子商务有限公司
主分类号: G06F16/35 分类号: G06F16/35;G06F16/33;G06Q30/0601;G06F18/214
代理公司: 上海卓阳知识产权代理事务所(普通合伙) 31262 代理人: 周春洪
地址: 200436 上海市静安*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 评论 分类 任务 数据 建立 后续 优化 扩充 方案
【说明书】:

本发明涉及一种电商评论分类任务中数据集的建立和后续优化及扩充方案,其特征在于,包括如下步骤:S1.对收集到的评论进行预处理;S2.利用人工标注平台按照步骤S1制定的标注规范进行标注,生成最初的数据集;S3.将步骤S1中预处理后的大量无标签的电商评论作为语料,采用Skip‑Gram模型训练出适用于电商评论的词向量,用于后续的模型训练,和数据集的扩充和优化;S4.利用词向量对现有数据集进行扩充;S5.利用模型的实际自动标注结果,结合词向量对现有数据集进行优化;S6.重复步骤S3至步骤S5,以实现数据集的持续更新。其优点表现在:降低人工标注耗费的时间和人力,同时在最初的数据集生成之后,能够进行持续的扩充和优化以满足后续自然语言处理的要求。

技术领域

本发明涉及机器学习和自然语言处理领域技术领域,具体地说,是一种电商评论分类任务中数据集的建立和后续优化及扩充方案。

背景技术

数据集的建立是利用机器学习对自然语言进行分析的技术中的最重要的前置工作之一,数据集的准确度以及泛化程度直接影响到通过其训练出的模型在实际应用中表现的优劣。

目前用于自然语言处理的数据集,很大一部分来自于开源的语料库,例如百度百科、人民日报、新浪微博等。这些的语料库的共同特点是所用语言大多是书面语,用词正式,语病较少。而电商评论为非正式的网络用语,偏口语化,风格随意,并且评论中经常会出现错字,病句等情况,也会包括表情符号等用于表达情感的非文本内容。因此直接使用现有的开源语料库对电商评论进行分析并非能取得理想的效果。

当开源的语料库无法满足需求时,另一种方式是借助标注平台对大量文本进行的人工标注,从而生成满足特定要求的数据集。这种方案的缺点也很明显,人工标注是一个缓慢的过程,需要大量人力进行长时间重复的标注行为,过程中将不可避免的产生标注错误。而且由于每个人对标注标准的理解不同,标注的结果也可能会产生的偏差,两方面都将对生成数据集的准确性产生影响。

另一方面,当数据集建立之后,后续的业务需求可能会对数据集的内容进行增加或删除,也会对已有的标注结果进行修改,这些改动对时间和人力都会有不小的要求。

中国专利文献:CN201810971800.6,申请日2018.08.24,专利名称为:一种中文商品虚假评论数据集的自动生成方法。公开了一种中文商品虚假评论数据集的自动生成方法,包括如下步骤:a)将事先采集到的商品评论数据读入内存;b)利用分词工具对评论进行分词,得到评论文本的词序列表示;c)对给定范围内的商品评论两两之间进行文本相似度的比较,得到商品虚假评论集合Rf1中;d)对Rf1中的评论执行关联查询,得到商品虚假评论结果集R1;e)提取给定范围内商品评论对应的评论人的名称信息;f)对评论人名称进行分析,找出符合一定规律特征的系列评论人名称,对虚假评论人执行关联查询,得到商品虚假评论结果集R2;g)最后,合并R1和R2,得到最终的商品虚假评论数据集。

上述专利文献的一种中文商品虚假评论数据集的自动生成方法,采用将读入的商品评论数据与给定范围内的商品评论两两之间进行文本相似度的比较,得到商品虚假评论集合,该发明完全自动化检测和识别商品评论数据中的虚假评论,无需人工干预和标注,自动生成商品虚假评论数据集。但是关于一种通过在人工标注的基础上,利用电商评论本身的一些特性,降低人工标注耗费的时间和人力,同时在最初的数据集生成之后,能够进行持续的扩充和优化以满足后续自然语言处理的要求的一种电商评论分类任务中数据集的建立和后续优化及扩充方案目前则没有相关的报道。

综上所述,亟需一种通过在人工标注的基础上,利用电商评论本身的一些特性,降低人工标注耗费的时间和人力,同时在最初的数据集生成之后,能够进行持续的扩充和优化以满足后续自然语言处理的要求的一种电商评论分类任务中数据集的建立和后续优化及扩充方案。

发明内容

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海宝尊电子商务有限公司,未经上海宝尊电子商务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910375040.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code