[发明专利]一种基于ERNIE与DPCNN的笔录问答分类方法在审

申请号：	202010654746.X	申请日：	2020-07-09
公开（公告）号：	CN111813938A	公开（公告）日：	2020-10-23
发明（设计）人：	王莎莎;彭鹏	申请（专利权）人：	湖南大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06F16/332;G06F16/33;G06F40/279;G06N3/04
代理公司：	暂无信息	代理人：	暂无信息
地址：	410082 湖南省***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 ernie dpcnn 笔录问答分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种基于ERNIE与DPCNN的笔录问答分类方法，其发明内容主要包括对笔录文本数据集进行预处理，将处理之后的数据先输入到ERNIE模型中训练得到字向量序列，然后将得到的字向量序列输入到DPCNN模型中进行训练，由于DPCNN模型对ERNIE模型提取到的句子特征进行了进一步的提取，因此使句子的语义表示更加精确，提高了笔录问答分类的准确率。

技术领域

本发明属于自然语言处理技术领域，基于ERNIE与DPCNN对笔录中的问答对进行分类的方法。

背景技术

随着时间的推移，越来越多的笔录文本被积累下来，然而这些笔录文本中包含着大量的案件关键信息，如何高效的从这些数据获得有重要价值的案件信息成为了研究热点，笔录中的问答、搜索、信息抽取以及犯罪分析等都是自然语言处理的应用领域，然而对笔录中的问答的分类是这些技术的的基础，那么对笔录问答分类精确度的要求也就非常高。

随着深度学习领域的高速发展，文本分类技术的正确率在不断的提升，如垃圾信息分类、意图识别都得到了非常好的效果，但是随着互联网的发展，犯罪分子利用网络技术手段犯罪方式越来越多样化，相应的对案件信息的分类技术迫切需要更高的准确率。

传统的文本分类技术大部分采用RNN或CNN模型，但是这些模型存在很大的不足，如RNN模型是一种循环神经网络，即下一层的结果依赖上一层输出，通俗的讲就是需要一个词一个词的进行输出，显然这并不是一种友好的并行处理方式，同时近些年来，一些研究者采用超深层CNN在大规模训练数据环境下对文本进行分类，这无疑增加了训练的复杂度，2018年发表的BERT模型，虽然在自然语言领域取得了不错的成绩，但是BERT模型对中文的分类的精确度并不友好以及只通过上下文来预测并没有考虑中文句子中的先验知识，基于综上这些不足，本发明提出了一种基于ERNIE与DPCNN的笔录问答分类方法。

发明内容

本发明的目的：进一步提高笔录问答分类的精确度，以便于后序对笔录进行信息抽取、检索等数据的处理。

为了达到上述目的，本发明提出了一种基于ERNIE与DPCNN的笔录问答分类方法，主要包括以下步骤：

步骤1、对笔录文本中的问答对进行标签的划分，不同的案件笔录划分的类别有所不同；

步骤2、数据预处理：对原始的笔录文本T进行预处理，得到数据集T′；其中T＝{T₁,T₂,T₃,…,T_i,…,T_len(T)}，len(T)表示笔录文本的数量，T_i表示第i个笔录文本，T′＝{t₁,t₂,t₃,…,t_j,…,t_len(T′)}，t_j表示第j个笔录问答对，len(T′)表示问答对的数量；