[发明专利]一种采用稀疏编码的自然语言语义深度解析算法在审
申请号: | 201710093898.5 | 申请日: | 2017-02-21 |
公开(公告)号: | CN106919556A | 公开(公告)日: | 2017-07-04 |
发明(设计)人: | 李鹏华;米怡;孙健;朱智勤;程安宇 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京科亿知识产权代理事务所(普通合伙)11350 | 代理人: | 汤东凤 |
地址: | 400065 重*** | 国省代码: | 重庆;85 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 采用 稀疏 编码 自然语言 语义 深度 解析 算法 | ||
技术领域
本发明涉及神经网络对自然语言处理的领域,尤其涉及采用深置信度神经网络和稀疏编码方法,对自然语言进行语义深度解析的一种采用稀疏编码的自然语言语义深度解析算法。
背景技术
现如今,自然语言语义解析在各个领域的应用十分广泛。对于文本特征选择时,存在语义表征不明确的问题,这主要是由于文本中词语间出现歧义或近义而难以辨析所导致。这一问题的解决与否几乎决定了自然语言处理的效果。由于稀疏编码算法是一种无监督学习方法,通过寻找一组“超完备”基向量来更高效地表示样本数据。同时其还具备编存储能力大,具有联想记忆能力,计算简便,使自然信号的结构更加清晰的优点。所以本专利采用稀疏编码的方式处理现存的这一问题,在本专利中采用稀疏编码的方法将作为样本数据的词与词间的向量空间距离拉大,使原本有相近或歧义含义的词间的细微差别扩大化,有效的将具有歧义或近义的词分开,使得文本中的整体语义更加符合文本作者的真实意图,为提高处理大量自然语言语义解析的准确性提供了便利。
发明内容
本发明的目的就在于为了解决上述问题而提供一种采用稀疏编码的自然语言语义深度解析算法。
本发明通过以下技术方案来实现上述目的:
本发明包括以下步骤:
1)采用基于统计的分词方法。在训练文本中,通过计算字x与字y的组合度大小,从而来判断字x与字y是否是同一个单词。其组合度的计算公式如下:
其中,Hxy为字x与字y的组合度大小,k为文本中xy组合的个数,n1为文本中字x的个数,n2为文本中字y的个数,N为文本的总字数。
2)采用word 2vec对分好的词组进行转化。将分好词的文本语料作为word2vec的输入文件并指定合适的训练参数,进行中文词向量的训练,得到最佳的词语对应的词向量。
3)搭建DBN神经网络,将转换好的词向量输入DBN神经网络中进行稀疏编码神经网络的训练,得到训练好的稀疏编码器。稀疏编码将多维的数据进行线性分解,进行线性转换,表达如下:
S=MX (2)
其中,M为稀疏变换矩阵,其每一个行向量类似于小波变换中的小波基;S为线性转换后的稀疏分量,满足稀疏分布的要求。
4)通过步骤3)的训练,将训练文本的词向量序列输入这个训练好的稀疏编码器中,得到文本的稀疏特征。
5)将步骤4)中得到的稀疏特征进行分类和解析。搭建DBN神经网络,将稀疏特征输入DBN中,对其进行训练,得到语义的解析结果。这个过程包括以下算法:
搭建深度置信神经网络DBN,利用TF-IDF方法选取特征项,经过受限玻尔兹曼机RBM网络预训练和反向传播BP神经网络微调来训练DBN网络模型,拟合训练数据集的分布,重构出测试数据集的分类模型。
其条件分布可表示为:
其中,σ=1/(1+e-x),为sigmoid激活函数。
RBM作为一个系统,其能量函数形式如下:
其中,θ=(W,a,b)是RBM的参数。
基于能量函数,可得到(v,h)的联合分布概率为:
p(v,h|θ)=1/(Z(θ))e-E(v,h|θ) (6)
其中,Z(θ)为归一化因子,为所有可视层和隐含层概率的和,即:
p(v,h|θ)对h的边缘分布为:
RBM采用迭代的方式进行训练,求出参数θ=(W,a,b)的最优值。利用最大似然学习可得参数的更新公式如下:
Δai=ε(<vi>data-<vi>model) (11)
Δbj=ε(<hj>data-<hj>model) (12)
其中,T为输入样本数目;<>data表示训练集所定义的分布之上的数学期望;<>model表示初始模型所定义的分布之上的数学期望;ε为学习率。
本发明的有益效果在于:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710093898.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种文本智能编排展示方法及装置
- 下一篇:一种结合主题模型的文档向量生成方法