[发明专利]基于BERT的文本分类方法、装置、计算机设备及存储介质在审

申请号：	202011212539.5	申请日：	2020-11-03
公开（公告）号：	CN112328786A	公开（公告）日：	2021-02-05
发明（设计）人：	王晶	申请（专利权）人：	平安科技（深圳）有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06F16/335
代理公司：	深圳市世联合知识产权代理有限公司 44385	代理人：	汪琳琳
地址：	518000 广东省深圳市福田区福***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于 bert 文本分类方法装置计算机设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请实施例属于自然语言处理技术领域，涉及一种基于BERT的文本分类方法装置、计算机设备及存储介质，该方法包括：接收用户通过请求终端发送的携带有咨询数据的会话请求；响应会话请求，将咨询数据输入至基于三元组损失函数训练好的BERT网络进行特征转化操作，得到会话特征向量；将会话特征向量输入至Dense分类层进行类别预测操作，得到预测分类结果；读取话术数据库，在话术数据库中获取与预测分类结果相对应的话术答复信息；向请求终端发送话术答复信息，以完成咨询会话答复。此外，本申请还涉及区块链技术，用户的咨询数据可存储于区块链中。本申请通可以极大减少噪音标签的影响，有效解决传统BERT的基本分类结构容易受噪音标签影响的问题。

技术领域

本申请涉及自然语言处理技术领域，尤其涉及一种基于BERT的文本分类方法、装置、计算机设备及存储介质。

背景技术

近年来，随着网络技术的快速发展，互联网上在线文本信息数据的急剧增加，文本分类在信息处理上起着至关重要的作用，是处理较大规模文本信息的关键技术，并推动了信息处理朝着自动化的方向发展。

对文本数据进行自动化分类是文本数据挖掘、自然语言处理等人工智能技术的重要应用领域，其主要功能是把以数字化形式存储的非结构化文本数据，通过自然语言处理技术、文本数据挖掘技术，自动按照事先组织好的与具体业务相关的类别进行分类。随着信息时代技术的不断发展，对文本数据进行自动化分类是提高企业生产效率和竞争优势的一种重要技术措施。

传统的文本分类方法中，大多是基于深度学习方法大部分采用CNN(Convolutional Neural Networks，卷积神经网络)模型或RNN(Recurrent NeuralNetwork，循环神经网络)模型来解决文本分类问题，然而，现有通用的模型容易受噪音标签影响。

发明内容

本申请实施例的目的在于提出一种基于BERT的文本分类方法、装置、计算机设备及存储介质，以解决现有通用的模型容易受噪音标签影响的问题。

为了解决上述技术问题，本申请实施例提供一种基于BERT的文本分类方法，采用了如下所述的技术方案：

接收用户通过请求终端发送的携带有咨询数据的会话请求；

响应所述会话请求，将所述咨询数据输入至基于三元组损失函数训练好的BERT网络进行特征转化操作，得到会话特征向量；

将所述会话特征向量输入至Dense分类层进行类别预测操作，得到预测分类结果；

读取话术数据库，在所述话术数据库中获取与所述预测分类结果相对应的话术答复信息；

向所述请求终端发送所述话术答复信息，以完成咨询会话答复。

为了解决上述技术问题，本申请实施例还提供一种基于BERT的文本分类装置，采用了如下所述的技术方案：

请求接收模块，用于接收用户通过请求终端发送的携带有咨询数据的会话请求；

特征转化模块，用于响应所述会话请求，将所述咨询数据输入至基于三元组损失函数训练好的BERT网络进行特征转化操作，得到会话特征向量；