[发明专利]一种基于对抗学习的文本标注方法和设备有效
申请号: | 201910342500.6 | 申请日: | 2019-04-26 |
公开(公告)号: | CN110110327B | 公开(公告)日: | 2021-06-22 |
发明(设计)人: | 蔡子健;李金锋 | 申请(专利权)人: | 网宿科技股份有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295 |
代理公司: | 北京华智则铭知识产权代理有限公司 11573 | 代理人: | 王昌贵 |
地址: | 200030 上海市徐汇*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 对抗 学习 文本 标注 方法 设备 | ||
本发明实施例提供了一种基于对抗学习的文本标注方法和设备,属于自然语言处理技术领域。所述方法包括:文本标注设备利用字符标注模型对待标注文本进行标注处理,生成包含标注词语的字符标注结果;文本标注设备通过预设的词语分割模型对待标注文本进行分词处理,生成包含分词词语的分词结果;若根据字符标注结果确定分词结果可信,文本标注设备则基于分词词语对字符标注结果重新进行字符标注,得到融合标注结果并输出;若根据字符标注结果确定分词结果不可信,文本标注设备则输出字符标注结果。采用本发明,可以提高文本标注的准确率和召回率。
技术领域
本发明涉及自然语言处理技术领域,特别涉及一种基于对抗学习的文本标注方法和设备。
背景技术
自然语言处理(Natural Language Processing,NLP)技术可以高效地对文本数据进行系统化分析、理解与信息提取,使得计算机能够理解自然语言以及生成自然语言,进而实现人与计算机之间采用自然语言进行有效交互(例如消息自动回复、语音助手等应用程序的使用)。其中,文本标注技术为自然语言处理的产业化应用提供了基础。
传统的机器学习(Machine Learning,ML)可以通过学习一定数量的文本数据,结合关键词(Seed Words)来挖掘文本之间的关联特征,得到传统机器学习模型,并利用该传统机器学习模型对其他文本自动分类和标注。大多数传统机器学习模型对文本高度依赖,通常主要关注文本的词法特征和句法特征,但忽略了文本的语义特征,不利于传统机器学习模型的性能提升,并且,大多数传统机器学习模型泛化性弱。因此,现有技术可以采用泛化性较高的深度学习(Deep Learning,DL)利用神经网络来挖掘文本的词法特征、句法特征和语义特征,通过不断迭代的方式训练得到深度学习模型,并利用该深度学习模型对文本进行自动标注。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
由于中文词汇丰富多样,计算机难以覆盖中文字符排列组合得到的所有词语,为了提高深度学习模型的泛化性以及防止深度学习模型过拟合,针对中文的文本标注技术通常利用基于字符粒度的深度学习模型对待标注文本进行标注处理。由于自然语言处理技术的不断发展,现有的基于字符粒度的深度学习模型不足以满足自然语言处理技术对文本标注不断提高的准确率要求。并且,当将一个训练成熟的深度学习模型应用到新的领域时,该深度学习模型的召回率不足甚至为零,导致深度学习模型泛化性差,词语边缘标注易固化。
发明内容
本申请的目的在于提供一种基于对抗学习的文本标注方法和设备,所述技术方案如下:
第一方面,提供了一种基于对抗学习的文本标注方法,所述方法包括:
利用字符标注模型对待标注文本进行标注处理,生成包含标注词语的字符标注结果;
通过预设的词语分割模型对所述待标注文本进行分词处理,生成包含分词词语的分词结果;
若根据所述字符标注结果确定所述分词结果可信,则基于所述分词词语对所述字符标注结果重新进行字符标注,得到融合标注结果并输出;
若根据所述字符标注结果确定所述分词结果不可信,则输出所述字符标注结果。
可选的,所述若根据所述字符标注结果确定所述分词结果可信,则基于所述分词词语对所述字符标注结果重新进行字符标注,得到融合标注结果,包括:
对所述字符标注结果中的每个所述标注词语与所述分词结果中的每个所述分词词语进行排列组合,得到相关词语对,并计算所有所述相关词语对的相似度;
若所述字符标注结果中的所有标注词语与所述分词结果中的任意分词词语的相似度均超过所述相似度阈值,则确定所述分词结果可信;
用相似度超过相似度阈值的相关词语对中的分词词语替换标注词语;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于网宿科技股份有限公司,未经网宿科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910342500.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于主题信息的文本切割方法
- 下一篇:文本处理方法及装置