[发明专利]样本数据的生成方法、装置、设备及存储介质在审
申请号: | 202110728017.9 | 申请日: | 2021-06-29 |
公开(公告)号: | CN113361267A | 公开(公告)日: | 2021-09-07 |
发明(设计)人: | 谢正文;徐君妍;刘屹;孙敬萍;沈志勇 | 申请(专利权)人: | 招商局金融科技有限公司 |
主分类号: | G06F40/242 | 分类号: | G06F40/242;G06F40/279;G06F40/30;G06F16/335;G06F16/951 |
代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
地址: | 518000 广东省深圳市福田区华富街*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 样本 数据 生成 方法 装置 设备 存储 介质 | ||
本发明涉及数据处理领域,提供了一种样本数据的生成方法、装置、设备及存储介质。所述方法包括:从预定的数据源获取第一文本集和第二文本集,对第一文本集的各文本执行分词操作,提取各文本分词后的关键词并生成关键词集,利用关键词集构建关键词词典,基于关键词词典及第一预设模板生成正样本数据集,根据关键词提取算法确定第二文本集中各文本的预设词性的关键词,将该关键词替换为关键词词典中预设词性的关键词生成负样本数据集,将正样本数据集和负样本数据集反馈至预设终端。本发明可以提升生成样本数据的效率,且样本的语义合理性高。
技术领域
本发明涉及数据处理领域,尤其涉及一种样本数据的生成方法、装置、设备及存储介质。
背景技术
目前在文本情绪识别的模型训练过程中,需要大量语句作为模型的训练数据集,由于特殊领域(例如,房产领域)的样本数据集较少,通常需要人工来进行编写大量的样本数据,耗费大量的人力和时间。采用sequence to sequence的方式获取文本,该方案在学术科研界比较活跃,实际应用中生成的文本的语义并不合理,缺乏一定的实用性。且生成样本的效率较低。
发明内容
鉴于以上内容,本发明提供一种样本数据的生成方法、装置、设备及存储介质,其目的在于解决现有技术中生成文本效率低且生成的文本语义不合理的技术问题。
为实现上述目的,本发明提供一种样本数据的生成方法,该方法包括:
从预定的数据源获取第一文本集和第二文本集,对所述第一文本集的各文本执行分词操作,提取各文本分词后的关键词并生成关键词集;
利用所述关键词集构建关键词词典,基于所述关键词词典及第一预设模板生成正样本数据集;
根据关键词提取算法确定所述第二文本集中各文本的预设词性的关键词,将该关键词替换为所述关键词词典中预设词性的关键词生成负样本数据集,将所述正样本数据集和所述负样本数据集反馈至预设终端。
优选的,所述关键词词典包括领域特征关键词词典和高危情绪关键词词典,所述第一预设模板包括第一预设词及第二预设词,所述基于所述关键词典及第一预设模板生成正样本数据集包括:
将所述第一预设词随机增加领域特征关键词词典的词,并加上所述第二预设词及高危情绪关键词词典的词得到多个正样本数据。
优选的,所述方法还包括:
从所述多个正样本数据中随机选取第一预设比例的正样本数据,对所述预设比例的正样本数据增加预设语气词,并将增加预设语气词后的正样本数据添加至所述正样本数据集。
优选的,在将该关键词替换为所述关键词词典中预设词性的关键词生成负样本数据集之后,所述方法还包括:
对所述负样本数据集的负样本数据过滤脏数据,从过滤脏数据后的负样本数据中选取第二预设比例的负样本数据添加至所述负样本数据集;
基于所述关键词词典及第二预设模板生成负样本数据并添加至所述负样本数据集。
优选的,所述提取各文本分词后的关键词并生成关键词集,包括:
计算各文本的各分词在该文本中的词频,基于所述词频计算出各分词的IDF值及TF值,将各分词的IDF值与各分词对应的TF值相乘得到各分词的TF-IDF值,基于所有分词的TF-IDF值选取预设数量的分词作为关键词并生成关键词集。
为实现上述目的,本发明还提供一种样本数据的生成装置,该样本数据的生成装置包括:
分词模块:用于从预定的数据源获取第一文本集和第二文本集,对所述第一文本集的各文本执行分词操作,提取各文本分词后的关键词并生成关键词集;
第一生成模块:用于利用所述关键词集构建关键词词典,基于所述关键词词典及第一预设模板生成正样本数据集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于招商局金融科技有限公司,未经招商局金融科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110728017.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:MEMS麦克风及其制作方法
- 下一篇:一种天然生物除草剂及其制备方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置