[发明专利]电商评论分类任务中数据集的建立和后续优化及扩充方案有效
申请号: | 201910375040.7 | 申请日: | 2019-05-07 |
公开(公告)号: | CN110096574B | 公开(公告)日: | 2023-08-15 |
发明(设计)人: | 郑圆;丁丁;李平章;王航 | 申请(专利权)人: | 上海宝尊电子商务有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33;G06Q30/0601;G06F18/214 |
代理公司: | 上海卓阳知识产权代理事务所(普通合伙) 31262 | 代理人: | 周春洪 |
地址: | 200436 上海市静安*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 评论 分类 任务 数据 建立 后续 优化 扩充 方案 | ||
本发明涉及一种电商评论分类任务中数据集的建立和后续优化及扩充方案,其特征在于,包括如下步骤:S1.对收集到的评论进行预处理;S2.利用人工标注平台按照步骤S1制定的标注规范进行标注,生成最初的数据集;S3.将步骤S1中预处理后的大量无标签的电商评论作为语料,采用Skip‑Gram模型训练出适用于电商评论的词向量,用于后续的模型训练,和数据集的扩充和优化;S4.利用词向量对现有数据集进行扩充;S5.利用模型的实际自动标注结果,结合词向量对现有数据集进行优化;S6.重复步骤S3至步骤S5,以实现数据集的持续更新。其优点表现在:降低人工标注耗费的时间和人力,同时在最初的数据集生成之后,能够进行持续的扩充和优化以满足后续自然语言处理的要求。
技术领域
本发明涉及机器学习和自然语言处理领域技术领域,具体地说,是一种电商评论分类任务中数据集的建立和后续优化及扩充方案。
背景技术
数据集的建立是利用机器学习对自然语言进行分析的技术中的最重要的前置工作之一,数据集的准确度以及泛化程度直接影响到通过其训练出的模型在实际应用中表现的优劣。
目前用于自然语言处理的数据集,很大一部分来自于开源的语料库,例如百度百科、人民日报、新浪微博等。这些的语料库的共同特点是所用语言大多是书面语,用词正式,语病较少。而电商评论为非正式的网络用语,偏口语化,风格随意,并且评论中经常会出现错字,病句等情况,也会包括表情符号等用于表达情感的非文本内容。因此直接使用现有的开源语料库对电商评论进行分析并非能取得理想的效果。
当开源的语料库无法满足需求时,另一种方式是借助标注平台对大量文本进行的人工标注,从而生成满足特定要求的数据集。这种方案的缺点也很明显,人工标注是一个缓慢的过程,需要大量人力进行长时间重复的标注行为,过程中将不可避免的产生标注错误。而且由于每个人对标注标准的理解不同,标注的结果也可能会产生的偏差,两方面都将对生成数据集的准确性产生影响。
另一方面,当数据集建立之后,后续的业务需求可能会对数据集的内容进行增加或删除,也会对已有的标注结果进行修改,这些改动对时间和人力都会有不小的要求。
中国专利文献:CN201810971800.6,申请日2018.08.24,专利名称为:一种中文商品虚假评论数据集的自动生成方法。公开了一种中文商品虚假评论数据集的自动生成方法,包括如下步骤:a)将事先采集到的商品评论数据读入内存;b)利用分词工具对评论进行分词,得到评论文本的词序列表示;c)对给定范围内的商品评论两两之间进行文本相似度的比较,得到商品虚假评论集合Rf1中;d)对Rf1中的评论执行关联查询,得到商品虚假评论结果集R1;e)提取给定范围内商品评论对应的评论人的名称信息;f)对评论人名称进行分析,找出符合一定规律特征的系列评论人名称,对虚假评论人执行关联查询,得到商品虚假评论结果集R2;g)最后,合并R1和R2,得到最终的商品虚假评论数据集。
上述专利文献的一种中文商品虚假评论数据集的自动生成方法,采用将读入的商品评论数据与给定范围内的商品评论两两之间进行文本相似度的比较,得到商品虚假评论集合,该发明完全自动化检测和识别商品评论数据中的虚假评论,无需人工干预和标注,自动生成商品虚假评论数据集。但是关于一种通过在人工标注的基础上,利用电商评论本身的一些特性,降低人工标注耗费的时间和人力,同时在最初的数据集生成之后,能够进行持续的扩充和优化以满足后续自然语言处理的要求的一种电商评论分类任务中数据集的建立和后续优化及扩充方案目前则没有相关的报道。
综上所述,亟需一种通过在人工标注的基础上,利用电商评论本身的一些特性,降低人工标注耗费的时间和人力,同时在最初的数据集生成之后,能够进行持续的扩充和优化以满足后续自然语言处理的要求的一种电商评论分类任务中数据集的建立和后续优化及扩充方案。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海宝尊电子商务有限公司,未经上海宝尊电子商务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910375040.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种文本解析方法及装置
- 下一篇:面向微博用户的心理画像方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置