[发明专利]一种基于ERNIE与DPCNN的笔录问答分类方法在审

申请号：	202010654746.X	申请日：	2020-07-09
公开（公告）号：	CN111813938A	公开（公告）日：	2020-10-23
发明（设计）人：	王莎莎;彭鹏	申请（专利权）人：	湖南大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06F16/332;G06F16/33;G06F40/279;G06N3/04
代理公司：	暂无信息	代理人：	暂无信息
地址：	410082 湖南省***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 ernie dpcnn 笔录问答分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于ERNIE与DPCNN的笔录问答分类方法，其特征在于，包括以下步骤：

步骤1、笔录问答分类；

步骤2、数据预处理；

步骤3、基于ERNIE模型对数据集T′进行向量化；

步骤4、基于DPCNN模型对字向量序列进行卷积、池化等操作；

步骤5、ERNIE-DPCNN模型训练。

2.如权利要求1所述的一种基于ERNIE与DPCNN的笔录问答分类方法，其特征在于，步骤3中，将数据集处理成ERNIE模型所需要的的数据格式，即seg_len、input_ids、input_mask和lable，其中seg_len表示句子的实际长度，input_ids表示的是句子中的词用ERNIE模型中词表中的id表示，input_mask表示句子中的词用1表示，label表示句子的标签在对应分类词表中的id号。然后利用split函数对t_j进行分割，分成内容(content)和类别(label)两部分，该步骤的具体内容如下：

利用模型中的tokenization进行分词处理，得到其中W表示每个样本数据，也就是数据集中的content，w_k表示句子中的第k个字；

将[CLS]拼接在样本W的开头得到W′，并设置句子的固定长度seg_size，利用模型将W′转化为向量W″，即input_ids，如果W″的长度小于seg_size，就填充0，否则就截断，input_mask表示句子中的词用1表示，用0填充其余的位置；

建立迭代器，即每组样本数量的大小为batch，然后将处理好的数据传入ERNIE模型中进行训练得到字向量序列。

3.如权利要求1所述的一种基于ERNIE与DPCNN的笔录问答分类方法，其特征在于，步骤4中，利用DPCNN模型对经过ERNIE模型训练得到的字向量序列进行卷积、池化等操作，具体内容如下：

首先对字向量序列进行两次卷积操作，卷积核的大小为3，卷积核的数量为250，字向量序列经过卷积过后大小为n_out，每一次经过卷积之后，使用非线性激活函数Relu进行激活，另外为了防止边界信息遗漏，需要进行padding操作，即边界填充；

经过上述操作过后，对所得的数据进行最大池化操作，即下采样操作，使用大小为3和步长为2的池化层执行最大池，也就是池层通过3个连续的内部向量取最大值来生成文档的新内部表示，经过该操作之后，得到特征向量X；

设置length为判断条件，如果句子的实际长度大于length，则需要对特征向量X再执行两次卷积操作，同样的对每次卷积过的数据进行Relu和padding操作，得到特征向量F，将特征向量X和F进行特征融合得到特征向量X′，对新的特征向量X′进行最大池化操作后，得到特征向量X″，X″经过全连接层进行降维，得到降维后的特征向量X″′，X″′＝{x₁，x₂，x₃，...，x_N}，N代表文本类别数，将特征向量X″′输入到softmax层，得到预测的问答类别概率值为P，P＝{p₁，p₂，p₃，...，p_m，...，p_N}，p_m代表第m个类别的概率值，Max(P)即为问答最终的分类。

4.如权利要求1所述的一种基于ERNIE与DPCNN的笔录问答分类方法，其特征在于，步骤5中，对ERNIE-DPCNN模型训练，采用梯度下降法优化模型中的参数，定义交叉熵作为模型的损失函数loss，设置improv_num参数，当模型训练的次数超过该参数值时，如果模型效果没有提升，就结束模型的训练。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于湖南大学，未经湖南大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010654746.X/1.html，转载请声明来源钻瓜专利网。

上一篇：一种用于消磁的目标位置确定方法及系统
下一篇：坡度尺

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于ERNIE与DPCNN的笔录问答分类方法在审

专利文献下载