[发明专利]一种基于注意力机制的自然语言语义表征方法有效
申请号: | 201811562363.9 | 申请日: | 2018-12-20 |
公开(公告)号: | CN109684449B | 公开(公告)日: | 2021-12-10 |
发明(设计)人: | 杨波;周宇;闫新童;刘珊;曾庆川;刘婷婷;郑文锋 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/36 |
代理公司: | 成都行之专利代理事务所(普通合伙) 51220 | 代理人: | 温利平 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 注意力 机制 自然语言 语义 表征 方法 | ||
本发明公开了一种基于注意力机制的自然语言语义表征方法,通过引入多层注意力机制和位置关系矩阵于语义关系特征提取中,从而在自然语句的语言语义表征中获取更多的语义信息;这样充分结合了深度学习技术和注意力机制共享表示自然语言的多层语义特征和语义位置信息特征,使其融合语言语义特征在提升算法性能的同时提升语义的通用性,可以用于各种自然语言处理任务。
技术领域
本发明属于自然语言处理技术领域,更为具体地讲,涉及一种基于注意力机制的自然语言语义表征方法。
背景技术
随着人工智能的发展,生活中越来越需要对自然语言进行知识、语义的推表征和推理。通过对语义的表征,可以帮助建立一个计算模型,识别自然语言句子中所包含的语义,使其能够像人那样理解自然语言。
语义表征是自然语言理解的根本问题,它在自然语言处理、信息检索、信息过滤、信息分类、语义挖掘等领域有着广泛的应用。在互联网时代,面对海量的信息资源,要想准确地进行信息抽取,检索所需信息、挖掘潜在的信息价值、提供智能的知识服务,都离不开面向机器理解的语义分析。尤其在大数据环境下,语义表征的地位越发凸显出来。
自然语言语义表征通常分为2个方面:词语语义表征、句子语义表征。
词语语义表征通常分为独热(One-Hot)表征和连续向量(Dense Vector)表征。独热表示,又称为高纬稀疏向量表示,是将词语转换为数学特征输入到计算机中,作为其他自然语言任务的数据预处理方法;连续向量,又称为低维向量表示,是将词语表征降低至更低的维度空间,例如LSA模型、SNE模型等。最近,基于神经网络的词向量技术获得了很大的关注,其中Word2Vec可以高效地处理大规模数据,得到了广泛的应用。Word2Vec是基于分布式语义假设提出的,假设认为上下文相似的词语往往拥有相似的语义。
句子语义表征通常划分为2类,一类是通过无监督的方式从大量的无标注的文本中学习句子的语义向量,经典的方法有在One-Hot表征的基础上使用词袋技术,但是却丢失了词语在句子中的信息,忽略了词语的语义信息。另一类是通过有监督的方式在某个特定的自然语言任务下间接地学习句子的语义表征。有监督句子语义表征通常是针对某个特定的自然语言处理任务训练得到,通常意义上,针对特定任务训练得到的句子语义特征会优于通用的句子语义表征。
目前,常用的建模句子语义表征的模型方法有循环神经网路(RNN),树型递归神经网络(Tree RNN),卷积神经网络(CNN)。但是单词向量化往往只关注句子的主要信息,例如经过卷积网络之后只保存局部语义,很容易丧失整个句子的语义关系。但是语义关系的保存于单词在句子中的位置关系有很大的联系,因此,如何在表征句子语义的同时包含更全的信息成为关键问题。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于注意力机制的自然语言语义表征方法,用于表征自然语句的词与词之间、词与句子之间的语义特征,且表征的语义特征在涵盖更多语义信息的同时更具有扩展性。
为实现上述发明目的,本发明一种基于注意力机制的自然语言语义表征方法,其特征在于,包括以下步骤:
(1)、自然语言预处理
随机下载一条完整独立的自然语句,然后剔除自然语句中的特殊字符,再按空格将自然语句划分为多个单词的集合S={W1,W2,…,Wi,…,WL},Wi表示自然语句中的第i个单词,L为单词总个数;
(2)、获取每个单词的词向量
将每一个单词输入至Seq2Word模型,输出得到每个单词的词向量;其中,Wi的词向量表示为wi;
(3)、获取每个单词的字符向量
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811562363.9/2.html,转载请声明来源钻瓜专利网。