[发明专利]一种融合自编码器和对抗训练的中文新词发现方法及装置有效

专利信息
申请号: 202110682896.6 申请日: 2021-06-18
公开(公告)号: CN113343683B 公开(公告)日: 2022-06-07
发明(设计)人: 孙宇清;潘韦 申请(专利权)人: 山东大学
主分类号: G06F40/284 分类号: G06F40/284;G06F40/289;G06F40/211;G06F16/35;G06F40/126;G06F40/30;G06N3/04;G06N3/08
代理公司: 济南竹森知识产权代理事务所(普通合伙) 37270 代理人: 吕利敏
地址: 250013 山*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 融合 编码器 对抗 训练 中文 新词 发现 方法 装置
【说明书】:

一种融合自编码器和对抗训练的中文新词发现方法,包括:1)利用文本重构的自编码器,采用无监督预训练的方式提取句子级别的语义信息;2)添加先验句法知识,并与字符向量融合,形成字符句法拼接向量,以提升歧义词划分的准确性;3)对所述字符句法拼接向量进行对抗训练:将输入源域和目标域的混合数据融入到共享层中,利用对抗架构以生成与领域无关的特征向量,提取与领域无关的信息,通过利用各领域间存在共性的特征,解决专业领域标注数据较少问题;4)采用条件随机场网络层对步骤3)所述对抗训练后得到的字符序列进行标注,以进行新词发现,输出发现结果。本发明充分借助通用领域中充足的标注语料以及先验句法知识辅助分词。

技术领域

本发明公开一种融合自编码器和对抗训练的中文新词发现方法及装置,属于语义分析的技术领域。

背景技术

单词是最小的能够被独立运用的语言单位,是自然语言中的基本层次单位。单词对于自然语言处理任务来说具有重要的意义,特别是在中文任务中,大部分模型的输入是以词汇作为基础,词汇划分的准确性会对模型性能产生影响。

新词作为科技进步和社会经济发展的产物,是为了更加精简准确地描绘新生事物,这些新词可以分为两类:一类是专业领域的新生词汇,一般是某一领域的专有名称,它具有专业性和规范性的特点,例如医学领域词汇“吲哚美辛”。这些领域新词相比于其他通用单词,经常作为关键词在句子中承担重要角色,在句法结构中具有更重要的功能。另一类是日常用语,如网络新词或行业广告标语,它具有时效性和随意性,不遵循特定的成词规范。本发明方法在技术角度针对第一种专业领域新词发现问题,以提高专业领域新词分词准确率。

目前分词方法主要分为三类,一类是依据词典和词汇出现的频率进行最大概率进行分词,无法应对专业领域新词大量增加而带来的词典更新不及时的情况;另一类是基于规则的分词,曾浩等人在2019年计算机应用研究期刊上发表了《基于扩展规则与统计特征的未登录词识别》,分析了专业领域新词特点,制定规则,并根据扩展规则对分词结果进行扩充,采用统计方法验证实验结果,取得了不错的成果,但是一个规则只能适用一类领域,而且手工编写和维护规则复杂性相对较高,难以在不同领域进行迁移;第三类是基于神经网络的分词方法,需要大量标注语料进行监督学习,但对于专业领域,这种标注大量数据的需求在现实中很难满足。

本发明采用更加高效的深度学习方法,采用通用语料库训练得到语法和语义的领域无关特征,借助这些先验知识,只需要少量语料进行新领域分词功能训练,可以快速准确地发现新词,提高模型的使用覆盖范围。

发明内容

为了解决新词发现问题,本发明提出了一种融合自编码器和对抗训练的中文新词发现方法。

本发明还公开一种实现中文新词发现方法的装置。

本发明可以使用少量专业领域标注文本对预训练好的模型进行参数微调,然后输入待分词的领域文本,进行有效的分词及新词发现。

新词:不存在于当前给定词典的词汇为新词。

句法知识:是指句法结构知识,用于捕获单词之间的长距离依赖关系并提供有用的信息。

对抗任务中的领域鉴别器:在对抗任务中定义领域鉴别器Discriminator用于区分每个句子所属的领域,在数据集上对领域鉴别器进行充分的预训练,所述领域鉴别器可以对输入的句子正确鉴别其属于源域还是目标域。

源域:模型输入数据之一,指包含大量分词标注的文本数据的领域,用于训练模型,学习到领域无关特征,辅助目标域分词。

目标域:模型输入数据之一,指待分词文本所属的领域,通常与源域词汇表有一定差距,标注数据量较少。

本发明详细的技术方案如下:

一种融合自编码器和对抗训练的中文新词发现方法,其特征在于以下步骤,包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110682896.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top