[发明专利]一种基于ERNIE与DPCNN的笔录问答分类方法在审

专利信息
申请号: 202010654746.X 申请日: 2020-07-09
公开(公告)号: CN111813938A 公开(公告)日: 2020-10-23
发明(设计)人: 王莎莎;彭鹏 申请(专利权)人: 湖南大学
主分类号: G06F16/35 分类号: G06F16/35;G06F16/332;G06F16/33;G06F40/279;G06N3/04
代理公司: 暂无信息 代理人: 暂无信息
地址: 410082 湖南省*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 ernie dpcnn 笔录 问答 分类 方法
【权利要求书】:

1.一种基于ERNIE与DPCNN的笔录问答分类方法,其特征在于,包括以下步骤:

步骤1、笔录问答分类;

步骤2、数据预处理;

步骤3、基于ERNIE模型对数据集T′进行向量化;

步骤4、基于DPCNN模型对字向量序列进行卷积、池化等操作;

步骤5、ERNIE-DPCNN模型训练。

2.如权利要求1所述的一种基于ERNIE与DPCNN的笔录问答分类方法,其特征在于,步骤3中,将数据集处理成ERNIE模型所需要的的数据格式,即seg_len、input_ids、input_mask和lable,其中seg_len表示句子的实际长度,input_ids表示的是句子中的词用ERNIE模型中词表中的id表示,input_mask表示句子中的词用1表示,label表示句子的标签在对应分类词表中的id号。然后利用split函数对tj进行分割,分成内容(content)和类别(label)两部分,该步骤的具体内容如下:

利用模型中的tokenization进行分词处理,得到其中W表示每个样本数据,也就是数据集中的content,wk表示句子中的第k个字;

将[CLS]拼接在样本W的开头得到W′,并设置句子的固定长度seg_size,利用模型将W′转化为向量W″,即input_ids,如果W″的长度小于seg_size,就填充0,否则就截断,input_mask表示句子中的词用1表示,用0填充其余的位置;

建立迭代器,即每组样本数量的大小为batch,然后将处理好的数据传入ERNIE模型中进行训练得到字向量序列。

3.如权利要求1所述的一种基于ERNIE与DPCNN的笔录问答分类方法,其特征在于,步骤4中,利用DPCNN模型对经过ERNIE模型训练得到的字向量序列进行卷积、池化等操作,具体内容如下:

首先对字向量序列进行两次卷积操作,卷积核的大小为3,卷积核的数量为250,字向量序列经过卷积过后大小为nout,每一次经过卷积之后,使用非线性激活函数Relu进行激活,另外为了防止边界信息遗漏,需要进行padding操作,即边界填充;

经过上述操作过后,对所得的数据进行最大池化操作,即下采样操作,使用大小为3和步长为2的池化层执行最大池,也就是池层通过3个连续的内部向量取最大值来生成文档的新内部表示,经过该操作之后,得到特征向量X;

设置length为判断条件,如果句子的实际长度大于length,则需要对特征向量X再执行两次卷积操作,同样的对每次卷积过的数据进行Relu和padding操作,得到特征向量F,将特征向量X和F进行特征融合得到特征向量X′,对新的特征向量X′进行最大池化操作后,得到特征向量X″,X″经过全连接层进行降维,得到降维后的特征向量X″′,X″′={x1,x2,x3,...,xN},N代表文本类别数,将特征向量X″′输入到softmax层,得到预测的问答类别概率值为P,P={p1,p2,p3,...,pm,...,pN},pm代表第m个类别的概率值,Max(P)即为问答最终的分类。

4.如权利要求1所述的一种基于ERNIE与DPCNN的笔录问答分类方法,其特征在于,步骤5中,对ERNIE-DPCNN模型训练,采用梯度下降法优化模型中的参数,定义交叉熵作为模型的损失函数loss,设置improv_num参数,当模型训练的次数超过该参数值时,如果模型效果没有提升,就结束模型的训练。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010654746.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top