[发明专利]一种基于ERNIE与DPCNN的笔录问答分类方法在审
申请号: | 202010654746.X | 申请日: | 2020-07-09 |
公开(公告)号: | CN111813938A | 公开(公告)日: | 2020-10-23 |
发明(设计)人: | 王莎莎;彭鹏 | 申请(专利权)人: | 湖南大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/332;G06F16/33;G06F40/279;G06N3/04 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 410082 湖南省*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 ernie dpcnn 笔录 问答 分类 方法 | ||
1.一种基于ERNIE与DPCNN的笔录问答分类方法,其特征在于,包括以下步骤:
步骤1、笔录问答分类;
步骤2、数据预处理;
步骤3、基于ERNIE模型对数据集T′进行向量化;
步骤4、基于DPCNN模型对字向量序列进行卷积、池化等操作;
步骤5、ERNIE-DPCNN模型训练。
2.如权利要求1所述的一种基于ERNIE与DPCNN的笔录问答分类方法,其特征在于,步骤3中,将数据集处理成ERNIE模型所需要的的数据格式,即seg_len、input_ids、input_mask和lable,其中seg_len表示句子的实际长度,input_ids表示的是句子中的词用ERNIE模型中词表中的id表示,input_mask表示句子中的词用1表示,label表示句子的标签在对应分类词表中的id号。然后利用split函数对tj进行分割,分成内容(content)和类别(label)两部分,该步骤的具体内容如下:
利用模型中的tokenization进行分词处理,得到其中W表示每个样本数据,也就是数据集中的content,wk表示句子中的第k个字;
将[CLS]拼接在样本W的开头得到W′,并设置句子的固定长度seg_size,利用模型将W′转化为向量W″,即input_ids,如果W″的长度小于seg_size,就填充0,否则就截断,input_mask表示句子中的词用1表示,用0填充其余的位置;
建立迭代器,即每组样本数量的大小为batch,然后将处理好的数据传入ERNIE模型中进行训练得到字向量序列。
3.如权利要求1所述的一种基于ERNIE与DPCNN的笔录问答分类方法,其特征在于,步骤4中,利用DPCNN模型对经过ERNIE模型训练得到的字向量序列进行卷积、池化等操作,具体内容如下:
首先对字向量序列进行两次卷积操作,卷积核的大小为3,卷积核的数量为250,字向量序列经过卷积过后大小为nout,每一次经过卷积之后,使用非线性激活函数Relu进行激活,另外为了防止边界信息遗漏,需要进行padding操作,即边界填充;
经过上述操作过后,对所得的数据进行最大池化操作,即下采样操作,使用大小为3和步长为2的池化层执行最大池,也就是池层通过3个连续的内部向量取最大值来生成文档的新内部表示,经过该操作之后,得到特征向量X;
设置length为判断条件,如果句子的实际长度大于length,则需要对特征向量X再执行两次卷积操作,同样的对每次卷积过的数据进行Relu和padding操作,得到特征向量F,将特征向量X和F进行特征融合得到特征向量X′,对新的特征向量X′进行最大池化操作后,得到特征向量X″,X″经过全连接层进行降维,得到降维后的特征向量X″′,X″′={x1,x2,x3,...,xN},N代表文本类别数,将特征向量X″′输入到softmax层,得到预测的问答类别概率值为P,P={p1,p2,p3,...,pm,...,pN},pm代表第m个类别的概率值,Max(P)即为问答最终的分类。
4.如权利要求1所述的一种基于ERNIE与DPCNN的笔录问答分类方法,其特征在于,步骤5中,对ERNIE-DPCNN模型训练,采用梯度下降法优化模型中的参数,定义交叉熵作为模型的损失函数loss,设置improv_num参数,当模型训练的次数超过该参数值时,如果模型效果没有提升,就结束模型的训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010654746.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于消磁的目标位置确定方法及系统
- 下一篇:坡度尺