[发明专利]基于预训练语言模型与多重词信息嵌入的字向量生成方法有效
申请号: | 202110511388.1 | 申请日: | 2021-05-11 |
公开(公告)号: | CN113128199B | 公开(公告)日: | 2022-06-21 |
发明(设计)人: | 陈贞翔;徐翰琛;杨倩;黄鹤林;姜晓庆;尚铭悦 | 申请(专利权)人: | 济南大学;山东思正信息科技有限公司 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F40/284;G06F16/951 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 李琳 |
地址: | 250022 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 训练 语言 模型 多重 信息 嵌入 向量 生成 方法 | ||
本发明提供了一种基于预训练语言模型与多重词信息嵌入的字向量生成方法,根据已标注数据主题,爬取相关无标注数据;构建预训练语言模型,对已标注数据与未标注数据进行预训练,基于预训练语言模型对输入句子进行处理,获得字向量;对已标注数据提取多重词信息特征;将得到的字向量与多重词信息特征进行融合,得到最终字向量。本发明通过预训练语言模型来表征字向量,可以更好的引入多义性信息;构建多重词信息特征并将其添加到字向量中,为字向量带来了词信息与单词分割信息,提高自然语言处理效果。
技术领域
本发明属于深度学习与自然语言处理技术领域,具体涉及一种基于预训练语言模型与多重词信息嵌入的字向量生成方法。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
自然语言处理(NLP)是计算机科学领域与人工智能领域中的一个重要方向,自然语言处理主要应用于机器翻译、舆情监控、自动摘要、观点提取、文本分类、问题回答、文本语义对比、语音识别、中文OCR等方面。
随着深度学习的不断发展,越来越多的深度神经网络模型被应用于自然语言处理领域。这些神经网络模型在使用时,需要将自然语言处理成数字化形式向量作为模型的输入,其中以Word2Vec、Glove等词嵌入模型最为常见,但上述模型得到的词向量或字向量的表征过于单一,无法处理多义性问题。
在中文自然语言处理中,因为中文中的字、词不是天然分割的,所以构建神经网络模型时往往分为两种:基于词的神经网络模型与基于字的神经网络模型。基于词的神经网络模型需要先对输入的自然语言进行分词,但现有的自动分词系统会不可避免地产生分词错误,这种错误会不断的传播累积,最终影响模型的效果。已有实验证明,在深度学习框架下,“字”的表现总是要优于“词”的表现,因此基于字的神经网络模型更为流行。然而,单词较字符包含着更多的信息,基于字的神经网络模型未能充分利用词的信息,最终得到的结果有限。
发明内容
本发明为了解决上述问题,提出了一种基于预训练语言模型与多重词信息嵌入的字向量生成方法,本发明通过预训练语言模型来表征字向量,可以更好的引入多义性信息;构建多重词信息特征并将其添加到字向量中,为字向量带来了词信息与单词分割信息,提高自然语言处理效果。
根据一些实施例,本发明采用如下技术方案:
一种基于预训练语言模型与多重词信息嵌入的字向量生成方法,包括以下步骤:
根据已标注数据主题,爬取相关无标注数据;
构建预训练语言模型,对已标注数据与未标注数据进行预训练,基于预训练语言模型对输入句子进行处理,获得字向量;
对已标注数据提取多重词信息特征;
将得到的字向量与多重词信息特征进行融合,得到最终字向量。
作为可选择的实施方式,爬取相关无标注数据的具体过程包括:
根据已标注数据主题,制定关键词表;
利用爬虫技术,根据关键词表在互联网上进行语料爬取;
将爬取的语料存入数据库中。
作为可选择的实施方式,构建预训练语言模型的的具体过程包括:
所述预训练语言模型,为多层双向的Transformer编码器,每一层Transformer编码器均采用encoder-decoder架构,并采用多头自注意力机制。
作为可选择的实施方式,基于预训练语言模型对输入句子进行处理的具体过程包括:
对于输入的句子,在句子头加入第一标记,以表示句子的开头;在句子尾加入第二标记,以表示句子的结尾;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于济南大学;山东思正信息科技有限公司,未经济南大学;山东思正信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110511388.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高产节能剥绒机
- 下一篇:一种液压泵齿轮同轴度工装