[发明专利]一种融合自编码器和对抗训练的中文新词发现方法及装置有效
申请号: | 202110682896.6 | 申请日: | 2021-06-18 |
公开(公告)号: | CN113343683B | 公开(公告)日: | 2022-06-07 |
发明(设计)人: | 孙宇清;潘韦 | 申请(专利权)人: | 山东大学 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/289;G06F40/211;G06F16/35;G06F40/126;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 济南竹森知识产权代理事务所(普通合伙) 37270 | 代理人: | 吕利敏 |
地址: | 250013 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种融合自编码器和对抗训练的中文新词发现方法,包括:1)利用文本重构的自编码器,采用无监督预训练的方式提取句子级别的语义信息;2)添加先验句法知识,并与字符向量融合,形成字符句法拼接向量,以提升歧义词划分的准确性;3)对所述字符句法拼接向量进行对抗训练:将输入源域和目标域的混合数据融入到共享层中,利用对抗架构以生成与领域无关的特征向量,提取与领域无关的信息,通过利用各领域间存在共性的特征,解决专业领域标注数据较少问题;4)采用条件随机场网络层对步骤3)所述对抗训练后得到的字符序列进行标注,以进行新词发现,输出发现结果。本发明充分借助通用领域中充足的标注语料以及先验句法知识辅助分词。 | ||
搜索关键词: | 一种 融合 编码器 对抗 训练 中文 新词 发现 方法 装置 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/202110682896.6/,转载请声明来源钻瓜专利网。
- 上一篇:一种糖果加工设备及方法
- 下一篇:一种模具的便捷式脱模顶出结构