[发明专利]一种基于对抗学习的文本标注方法和设备有效
申请号: | 201910342500.6 | 申请日: | 2019-04-26 |
公开(公告)号: | CN110110327B | 公开(公告)日: | 2021-06-22 |
发明(设计)人: | 蔡子健;李金锋 | 申请(专利权)人: | 网宿科技股份有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295 |
代理公司: | 北京华智则铭知识产权代理有限公司 11573 | 代理人: | 王昌贵 |
地址: | 200030 上海市徐汇*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 对抗 学习 文本 标注 方法 设备 | ||
1.一种基于对抗学习的文本标注方法,其特征在于,所述方法包括:
利用字符标注模型对待标注文本进行标注处理,生成包含标注词语的字符标注结果;
通过预设的词语分割模型对所述待标注文本进行分词处理,生成包含分词词语的分词结果;
利用所述词语分割模型生成的分词结果与所述字符标注模型生成的字符标注结果进行对比,确定所述分词结果是否可信;
若所述分词结果可信,则基于所述分词词语对所述字符标注结果重新进行字符标注,得到融合标注结果并输出,将所述融合标注结果作为训练样本对所述字符标注模型进行训练;
若根据所述字符标注结果确定所述分词结果不可信,则输出所述字符标注结果,并利用所述字符标注结果对所述词语分割模型进行训练。
2.如权利要求1所述的方法,其特征在于,所述若根据所述字符标注结果确定所述分词结果可信,则基于所述分词词语对所述字符标注结果重新进行字符标注,得到融合标注结果,包括:
对所述字符标注结果中的每个所述标注词语与所述分词结果中的每个所述分词词语进行排列组合,得到相关词语对,并计算所有所述相关词语对的相似度;
若所述字符标注结果中的所有标注词语与所述分词结果中的任意分词词语的相似度均超过相似度阈值,则确定所述分词结果可信;
用相似度超过相似度阈值的相关词语对中的分词词语替换标注词语;
对替换后的所述字符标注结果重新进行字符标注,得到所述融合标注结果。
3.如权利要求2所述的方法,其特征在于,所述若根据所述字符标注结果确定所述分词结果不可信,则输出所述字符标注结果,包括:
若任意所述标注词语与所有所述分词词语的相似度未超过所述相似度阈值,则计算所述字符标注结果的平均置信度;
若所述平均置信度超过置信度阈值,则确定所述分词结果不可信,并输出所述字符标注结果。
4.如权利要求3所述的方法,其特征在于,所述方法还包括:
按照预设的递减函数根据所述字符标注模型的训练次数更新所述置信度阈值与所述相似度阈值。
5.如权利要求1所述的方法,其特征在于,所述利用字符标注模型对待标注文本进行标注处理,生成包含标注词语的字符标注结果之前,还包括:
利用标注样本集合中的已标注文本对初始字符标注模型进行训练,生成所述字符标注模型。
6.如权利要求5所述的方法,其特征在于,所述若根据所述字符标注结果确定所述分词结果可信,则基于所述分词词语对所述字符标注结果重新进行字符标注,得到融合标注结果之后,还包括:
将所述融合标注结果添加至融合标注集合;
从所述融合标注集合和所述标注样本集合中抽取预设数量的已标注文本,生成新的标注样本集合;
利用所述新的标注样本集合对所述字符标注模型进行训练。
7.如权利要求1所述的方法,其特征在于,所述若根据所述字符标注结果确定所述分词结果不可信,则输出所述字符标注结果之后,还包括:
将所述字符标注结果添加至回收标注集合;
从所述回收标注集合中抽取预设数量的已分词文本对所述词语分割模型进行训练。
8.如权利要求7所述的方法,其特征在于,所述从所述回收标注集合中抽取预设数量的已分词文本对所述词语分割模型进行训练之前,还包括:
按照预设的递增函数根据所述字符标注模型的训练次数,更新从所述回收标注集合中抽取已分词文本的数量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于网宿科技股份有限公司,未经网宿科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910342500.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于主题信息的文本切割方法
- 下一篇:文本处理方法及装置