[发明专利]文本多标注方法、装置、设备及存储介质有效

申请号：	202011473154.4	申请日：	2020-12-15
公开（公告）号：	CN112560463B	公开（公告）日：	2023-08-04
发明（设计）人：	任小芹	申请（专利权）人：	中国平安人寿保险股份有限公司
主分类号：	G06F40/279	分类号：	G06F40/279;G06N3/0464;G06N3/08;G06F16/35
代理公司：	深圳中一联合知识产权代理有限公司 44414	代理人：	牟蓓佳
地址：	518000 广东省深圳市福田***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本标注方法装置设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请适用于人工智能技术领域，提供了一种文本标注方法、装置、设备及存储介质，其中，一种文本标注方法，通过利用预先训练完成的文本多标注模型对文本数据进行标注，由于预先训练完成的文本多标注模型的训练样本集为经过多次递进式过滤源文本数据得到的质量较高的训练样本集，而基于该训练样本集训练文本多标注模型，可以有效避免文本多标注模型训练过程中的数据不均衡和过拟合现象，进而提高文本多标注模型的标注准确性。

技术领域

本申请涉及区块链/人工智能技术领域，尤其涉及一种文本标注方法、装置、设备及存储介质。

背景技术

如今，存在大量的文本多标注应用场景，例如问答意图识别场景以及情绪识别场景中的文本多标注任务等。在相关技术中，通常是利用标注模型进行文本多标注，而标注模型的训练过程需要大量的训练样本数据。但是在某些特定领域，由于数据来源有限且文本多标注大都倾向于语义级别的标注，导致上述标注模型在训练过程中经常会出现数据不均衡以及过拟合的现象，使得用于文本多标注的标注模型存在标注不准确的问题。

由此可见，现有的文本标注过程中存在标注不准确的问题。

发明内容

有鉴于此，本申请实施例提供了一种文本标注方法、装置、设备及存储介质，以解决现有技术中文本标注过程中存在标注不准确的问题。

本申请实施例的第一方面提供了一种文本标注方法，包括：

获取待标注的文本数据；

将所述文本数据输入预先训练完成的文本多标注模型进行文本标注，输出目标类别文本；

所述预先训练完成的文本多标注模型为基于文本多标注模型的训练样本集训练得到的模型，所述文本多标注模型的训练样本集包括第一正样本集、第二正样本集和第三正样本集；所述第二正样本集由对所述第一正样本集进行过滤得到，所述第三正样本集由对所述第二正样本集进行过滤得到。

在一可选的实现方式中，在将所述文本数据输入预先训练完成的文本多标注模型进行文本标注，输出目标类别文本之前，包括：

获取所述训练样本集，基于所述训练样本集对预先建立的文本多标注模型进行训练，得到训练完成的所述文本多标注模型。

在一可选的实现方式中，获取所述训练样本集，包括：

获取源文本数据，对所述源文本数据进行数据清洗，得到源样本数据；

利用预设的主动学习算法对所述源样本数据进行动态采样，得到第一正样本集和第一负样本集；