[发明专利]一种基于ERNIE与DPCNN的笔录问答分类方法在审
申请号: | 202010654746.X | 申请日: | 2020-07-09 |
公开(公告)号: | CN111813938A | 公开(公告)日: | 2020-10-23 |
发明(设计)人: | 王莎莎;彭鹏 | 申请(专利权)人: | 湖南大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/332;G06F16/33;G06F40/279;G06N3/04 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 410082 湖南省*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 ernie dpcnn 笔录 问答 分类 方法 | ||
本发明涉及一种基于ERNIE与DPCNN的笔录问答分类方法,其发明内容主要包括对笔录文本数据集进行预处理,将处理之后的数据先输入到ERNIE模型中训练得到字向量序列,然后将得到的字向量序列输入到DPCNN模型中进行训练,由于DPCNN模型对ERNIE模型提取到的句子特征进行了进一步的提取,因此使句子的语义表示更加精确,提高了笔录问答分类的准确率。
技术领域
本发明属于自然语言处理技术领域,基于ERNIE与DPCNN对笔录中的问答对进行分类的方法。
背景技术
随着时间的推移,越来越多的笔录文本被积累下来,然而这些笔录文本中包含着大量的案件关键信息,如何高效的从这些数据获得有重要价值的案件信息成为了研究热点,笔录中的问答、搜索、信息抽取以及犯罪分析等都是自然语言处理的应用领域,然而对笔录中的问答的分类是这些技术的的基础,那么对笔录问答分类精确度的要求也就非常高。
随着深度学习领域的高速发展,文本分类技术的正确率在不断的提升,如垃圾信息分类、意图识别都得到了非常好的效果,但是随着互联网的发展,犯罪分子利用网络技术手段犯罪方式越来越多样化,相应的对案件信息的分类技术迫切需要更高的准确率。
传统的文本分类技术大部分采用RNN或CNN模型,但是这些模型存在很大的不足,如RNN模型是一种循环神经网络,即下一层的结果依赖上一层输出,通俗的讲就是需要一个词一个词的进行输出,显然这并不是一种友好的并行处理方式,同时近些年来,一些研究者采用超深层CNN在大规模训练数据环境下对文本进行分类,这无疑增加了训练的复杂度,2018年发表的BERT模型,虽然在自然语言领域取得了不错的成绩,但是BERT模型对中文的分类的精确度并不友好以及只通过上下文来预测并没有考虑中文句子中的先验知识,基于综上这些不足,本发明提出了一种基于ERNIE与DPCNN的笔录问答分类方法。
发明内容
本发明的目的:进一步提高笔录问答分类的精确度,以便于后序对笔录进行信息抽取、检索等数据的处理。
为了达到上述目的,本发明提出了一种基于ERNIE与DPCNN的笔录问答分类方法,主要包括以下步骤:
步骤1、对笔录文本中的问答对进行标签的划分,不同的案件笔录划分的类别有所不同;
步骤2、数据预处理:对原始的笔录文本T进行预处理,得到数据集T′;其中T={T1,T2,T3,…,Ti,…,Tlen(T)},len(T)表示笔录文本的数量,Ti表示第i个笔录文本,T′={t1,t2,t3,…,tj,…,tlen(T′)},tj表示第j个笔录问答对,len(T′)表示问答对的数量;
步骤3、利用ERNIE模型对数据集T′进行向量化;
步骤3.1、首先将数据集处理成ERNIE模型所需要的的数据格式,利用split函数对tj进行分割,分成内容(content)和类别(label)两部分;
步骤3.2、利用模型中的tokenize对content进行分词处理,得到其中W表示每个样本数据,也就是数据集中的content,wk表示句子中的第k个字;
步骤3.3、将[CLS]拼接在样本W的开头得到W′,并设置句子的固定长度为seg_size;
步骤3.4、利用模型将W′转化为向量W″,如果W″的长度小于seg_size,就填充0,否则就截断;
步骤3.5、将处理好的数据保存起来,这样每次调试模型的时候只需要加载处理好的数据,提高模型处理数据的效率;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010654746.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于消磁的目标位置确定方法及系统
- 下一篇:坡度尺