[发明专利]基于新型神经网络的自然语言并列结构的自动识别方法有效
申请号: | 201610250258.6 | 申请日: | 2016-04-21 |
公开(公告)号: | CN105868181B | 公开(公告)日: | 2018-08-21 |
发明(设计)人: | 黄书剑;周逸初;戴新宇;陈家骏;张建兵 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06N3/08 |
代理公司: | 江苏圣典律师事务所 32237 | 代理人: | 胡建华 |
地址: | 210023 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出了基于新型神经网络的自然语言并列结构的自动识别方法,包括:先对待分析的句子进行句法分析处理,得到一个并列结构的候选集合,然后利用新型的神经网络学习器对候选集合中的并列结构进行打分,从而选出最佳的并列结构作为系统的最终输出。本方法综合考虑了并列结构的短语独立性和短语之间的相似性,提高了并列结构识别精度。对比现有的其他技术,本方法突出在能够自动识别出任意的并列结构,而其他技术只能识别出特定类型的并列结构,如只有名词组成的并列结构。本方法提出了一种更有效的并列结构识别方法,在实际应用中提高了识别质量。 | ||
搜索关键词: | 基于 新型 神经网络 自然语言 并列 结构 自动识别 方法 | ||
【主权项】:
1.基于神经网络的自然语言并列结构的自动识别方法,其特征在于,包括如下步骤:步骤1,计算机读取一个包含待分析的自然语言句子文本文件,对读取的句子进行针对并列结构的句法分析,得到并列结构句法树候选集合并输入到神经网络学习器中;步骤2,神经网络学习器对并列结构句法树候选集合中所有的并列结构进行打分,从中选出最佳的并列结构;步骤1包括如下步骤:步骤1‑1,按照从左到右的顺序依次读取自然语言句子中的每个词,利用基于状态转移技术的句法分析技术对输入的句子进行只针对并列结构的句法分析,分析后得到并列结构句法树候选集合;步骤1‑2,抽取并列结构句法树候选集合中所有的并列结构的左成分短语和右成分短语并进行初步打分,将所有并列结构的左成分短语和右成分短语输入到神经网络学习器中;所述神经网络学习器由两个循环神经网络和一个单隐层神经网络组成,两个循环神经网络共享相同的参数设置,并且其隐层直接连接到单隐层神经网络的输入层,两个循环神经网络和单隐层神经网络具有单独的输出层,相互独立,互不影响;步骤1‑2包括如下步骤:步骤1‑2‑1,对并列结构句法树候选集合中的每一个并列结构抽取出并列结构的左成分短语Sleft和右成分短语Sright,Sleft=w0w1...wn1,Sright=w′0w′1...w′m1,其中,wn1表示左成分短语中的第n1个词语,w′m1表示右成分短语中的第m1个词语;步骤1‑2‑2,利用如下公式将左成分短语Sleft和右成分短语Sright输入到具有相同参数设置的两个循环神经网络中:y(t)=g(Vs(t)),s(t)=f(U0w(t)+U1o(t)+Ps(t‑1)),其中,y(t)是循环神经网络最终的输出,w表示句子中的词语,o表示相应词语的词性标记,t表示当前处理到第t个词语;w(t)表示第t个词,o(t)表示第t个词的词性标记;s(t)、s(t‑1)分别表示第t个词的向量表示和第t‑1个词的向量表示;U0、U1、V和P是已经训练好的模型参数;f()和g()分别是循环神经网络中的激活函数和归一化函数,Vs(t),U0w(t),U1o(t),Ps(t‑1)均是矩阵相乘操作;利用循环神经网络分别对Sleft和Sright进行打分,将循环神经网络最终的输出作为左、右短语的得分,分别记作Scoreleft和Scoreright;步骤2包括如下步骤:步骤2‑1,将左成分短语Sleft、右成分短语Sright及它们共同的上下文信息c同时输入到单隐层的神经网络中,根据如下公式对并列结构整体进行打分:h=f(Rc),y=g(Q0s0(n2)+Q1s1(m2)+Th),其中,h是上下文信息的向量表示,y表示单隐层的神经网络的最终输出,其中R、Q0、Q1和T是已经训练好的模型参数;n2、m2分别表示左成分短语的长度和右成分短语的长度,s0(n2)和s1(m2)分别表示左成分短语Sleft经过神经循环网络之后得到的向量表示和右成分短语Sright经过神经循环网络之后得到的向量表示;该单隐层的神经网络的最终输出就作为当前并列结构的得分,记作Score;Rc,Q0s0(n2),Q1s1(m2),Th均是矩阵相乘操作;步骤2‑2,综合考虑步骤1‑2‑2和步骤2‑1中的打分,计算平均值,选出平均分最高的并列结构作为最佳的并列结构;f(z)和g(z)分别是循环神经网络中的激活函数和归一化函数,具体形式为:其中,z是激活函数和归一化函数的输入参数,e表示自然对数,x表示向量的维度,k是对向量元素的一个计数。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610250258.6/,转载请声明来源钻瓜专利网。
- 上一篇:简单高效的话题提取方法
- 下一篇:基于内容控件的学位论文模板设计方法