[发明专利]一种基于深度学习的文本训练增强方法与系统在审
申请号: | 202111233752.9 | 申请日: | 2021-10-22 |
公开(公告)号: | CN113887724A | 公开(公告)日: | 2022-01-04 |
发明(设计)人: | 蔡淑苹;黄惠海;魏丽珍;陈贵民;周剑宇;陈思德 | 申请(专利权)人: | 厦门安胜网络科技有限公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06F40/211;G06F40/284;G06F40/289;G06K9/62 |
代理公司: | 厦门福贝知识产权代理事务所(普通合伙) 35235 | 代理人: | 陈远洋 |
地址: | 361008 福建省厦门市集美*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 文本 训练 增强 方法 系统 | ||
1.一种基于深度学习的文本训练增强方法,其特征在于,包括以下步骤:
S1:针对待训练文本进行初步的数据分析从而将所述待训练文本划分在一定范围内,然后在所述一定范围内对所述待训练文本进行检索,获取所述待训练文本的定位再获取其中各个词语的词频,将词频超过一定数量的词语作为关键词;
S2:对所述待训练文本打上标签后再将其划分为训练集、验证集、测试集,将所述训练集、所述验证集和所述测试集中的文本所使用的语言经过预处理后成为机器所使用的语言,再利用预处理后的所述训练集、所述验证集和所述测试集进行深度学习训练得到训练结果模型,再使用所述测试集验证所述训练结果模型的测试效果;
S3:若所述测试效果不符合所需的要求,则取出所述测试效果中出错的数据记为问题数据,对所述问题数据进行加强后跳转至所述S2;若所述测试效果符合所需的要求则输出所述训练结果模型;
对所述问题数据进行加强包括:针对所述问题数据进行语句句式的转换之后,生成所述问题数据对应的新数据加入所述待训练文本中;对所述问题数据中包含的关键词进行不同程度、不同顺序的结合之后,生成所述问题数据对应的新数据加入所述待训练文本中。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括在所述S1后执行S4:设置能够在多种不同的语境中被使用的句式,以所述句式作为创建样本的模板将所述待训练文本中的词语分别加入所述句式中得到新样本,利用所述新样本对所述待训练文本进行加强。
3.根据权利要求2所述的方法,其特征在于,所述S4具体包括针对所述待训练文本中的各个词语执行如下步骤:
设置能够在多种不同的语境中被使用的句式,所述句式中包含文本不确定并且可填入任意词语的固定位置,且所述句式中除所述固定位置外的文本均为确定信息;
将所述待训练文本中的各个词语分别填入所述固定位置,根据各个词语在不同情境中的用法不同来创建包含各个词语的正样本;同时根据各个词语在不同情境中的相反含义来创建包含各个词语的负样本;
最后利用所述正样本增强所述待训练文本的正向数据,利用所述负样本增强所述待训练文本中的干扰数据。
4.根据权利要求1所述的方法,其特征在于,所述针对所述问题数据进行语句句式的转换之后,生成所述问题数据对应的新数据加入所述待训练文本中,具体包括:
通过语句句式的转换将所述问题数据中的语句使用多种不同的方法进行表述,从而使一条语句生成多条意思相同的新语句,并将所述新语句加入所述待训练文本中。
5.根据权利要求1所述的方法,其特征在于,所述对所述问题数据中包含的关键词进行不同程度、不同顺序的结合之后,生成所述问题数据对应的新数据加入所述待训练文本中,具体包括:
对所述问题数据中的关键词进行不同程度的拆词,再用拆词后得到的多个词进行随机组词,得到所述关键词所对应的多个新词,根据所述多个新词将所述关键词所在的语句变为多条新语句加入到所述待训练文本中。
6.根据权利要求4所述的方法,其特征在于,所述通过语句句式的转换将所述问题数据中的语句使用多种不同的方法进行表述,具体包括:
常规通用方法:在语句前加入不会影响所述语句的原本含义的前置信息;
语句类型转换方法:将语句中的肯定句改为双重否定句;将语句中的把字句改为被字句;利用增加若干通用的形容词的方式对语句进行扩展;将语句中的一般句式改为问句/感叹句。
7.根据权利要求1所述的方法,其特征在于,所述针对待训练文本进行初步的数据分析从而将所述待训练文本划分在一定范围内,具体包括:
分析待训练文本中的数据从而获取数据中包含关键字和主题内容在内的相关信息,根据所述相关信息将所述待训练文本归类在一定范围内。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被计算机处理器执行时实施权利要求1至7中任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门安胜网络科技有限公司,未经厦门安胜网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111233752.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:几种肿瘤高亲和肽及其应用
- 下一篇:一种双主梁多吊点起重机及其工作方法