[发明专利]文本多标注方法、装置、设备及存储介质有效
申请号: | 202011473154.4 | 申请日: | 2020-12-15 |
公开(公告)号: | CN112560463B | 公开(公告)日: | 2023-08-04 |
发明(设计)人: | 任小芹 | 申请(专利权)人: | 中国平安人寿保险股份有限公司 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06N3/0464;G06N3/08;G06F16/35 |
代理公司: | 深圳中一联合知识产权代理有限公司 44414 | 代理人: | 牟蓓佳 |
地址: | 518000 广东省深圳市福田*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 标注 方法 装置 设备 存储 介质 | ||
本申请适用于人工智能技术领域,提供了一种文本标注方法、装置、设备及存储介质,其中,一种文本标注方法,通过利用预先训练完成的文本多标注模型对文本数据进行标注,由于预先训练完成的文本多标注模型的训练样本集为经过多次递进式过滤源文本数据得到的质量较高的训练样本集,而基于该训练样本集训练文本多标注模型,可以有效避免文本多标注模型训练过程中的数据不均衡和过拟合现象,进而提高文本多标注模型的标注准确性。
技术领域
本申请涉及区块链/人工智能技术领域,尤其涉及一种文本标注方法、装置、设备及存储介质。
背景技术
如今,存在大量的文本多标注应用场景,例如问答意图识别场景以及情绪识别场景中的文本多标注任务等。在相关技术中,通常是利用标注模型进行文本多标注,而标注模型的训练过程需要大量的训练样本数据。但是在某些特定领域,由于数据来源有限且文本多标注大都倾向于语义级别的标注,导致上述标注模型在训练过程中经常会出现数据不均衡以及过拟合的现象,使得用于文本多标注的标注模型存在标注不准确的问题。
由此可见,现有的文本标注过程中存在标注不准确的问题。
发明内容
有鉴于此,本申请实施例提供了一种文本标注方法、装置、设备及存储介质,以解决现有技术中文本标注过程中存在标注不准确的问题。
本申请实施例的第一方面提供了一种文本标注方法,包括:
获取待标注的文本数据;
将所述文本数据输入预先训练完成的文本多标注模型进行文本标注,输出目标类别文本;
所述预先训练完成的文本多标注模型为基于文本多标注模型的训练样本集训练得到的模型,所述文本多标注模型的训练样本集包括第一正样本集、第二正样本集和第三正样本集;所述第二正样本集由对所述第一正样本集进行过滤得到,所述第三正样本集由对所述第二正样本集进行过滤得到。
在一可选的实现方式中,在将所述文本数据输入预先训练完成的文本多标注模型进行文本标注,输出目标类别文本之前,包括:
获取所述训练样本集,基于所述训练样本集对预先建立的文本多标注模型进行训练,得到训练完成的所述文本多标注模型。
在一可选的实现方式中,获取所述训练样本集,包括:
获取源文本数据,对所述源文本数据进行数据清洗,得到源样本数据;
利用预设的主动学习算法对所述源样本数据进行动态采样,得到第一正样本集和第一负样本集;
利用预设的聚类算法对所述第一负样本集进行聚类分析,得到第二正样本集和第二负样本集;
对所述第二负样本集进行类别标注,得到第三正样本集。
在一可选的实现方式中,所述利用预设的主动学习算法对所述源样本数据进行动态采样,得到第一正样本集和第一负样本集,包括:
基于预设的多个文本标注器对所述源样本数据分别进行标注,得到各个所述文本标注器分别对应的标注结果;
分别将各个所述文本标注器对应的标注结果进行比较,若各个所述文本标注器对目标文本的标注结果一致,则确定所述目标文本为第一正样本;所述目标文本为所述源样本数据中具有固定语义的任意词语,所有所述第一正样本构成所述第一正样本集;
若有所述文本标注器对所述目标文本的标注结果与其它文本标注器对所述目标文本的标注结果不一致,则确定所述目标文本为第一负样本,所有所述第一负样本构成所述第一负样本集。
在一可选的实现方式中,所述利用预设的聚类算法对所述第一负样本集进行聚类分析,得到第二正样本集和第二负样本集,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国平安人寿保险股份有限公司,未经中国平安人寿保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011473154.4/2.html,转载请声明来源钻瓜专利网。