[发明专利]一种融合卷积神经网络和循环神经网络的文本因果关系自动抽取方法在审
申请号: | 201910738220.7 | 申请日: | 2019-08-12 |
公开(公告)号: | CN110704890A | 公开(公告)日: | 2020-01-17 |
发明(设计)人: | 骆祥峰;黄敬;靳献献 | 申请(专利权)人: | 上海大学;阿里巴巴集团控股有限公司 |
主分类号: | G06F30/13 | 分类号: | G06F30/13;G06F40/211;G06F40/289;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 31205 上海上大专利事务所(普通合伙) | 代理人: | 陆聪明 |
地址: | 200444*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 因果关系 自动抽取 文本信息 预处理 卷积神经网络 循环神经网络 文本 语义特征提取 模板操作 神经网络 数值计算 融合 向量化 句子 抽取 输出 互联网 制定 | ||
1.一种融合卷积神经网络和循环神经网络的文本因果关系自动抽取方法,其特征在于,具体步骤如下:
(1)获取互联网文本信息;
(2)对获取的文本信息进行预处理;
(3)训练融合卷积神经网络和循环神经网络的文本因果关系自动抽取模型;
(4)将预处理后的文本信息输入到因果关系自动抽取模型,输出句子因果关系抽取结果。
2.根据权利要求1所述的融合卷积神经网络和循环神经网络的文本因果关系自动抽取方法,其特征在于,所述步骤(2)的具体过程如下:
(2-1)对获取的互联网文本信息进行预处理,去除停用词,使用分词工具HanLP对文本信息进行分词处理、去除停用词、低频词,最后保留除标点符号之外的词;
(2-2)将数据集分为训练集和测试集,并训练为句向量。
3.根据权利要求1所述的融合卷积神经网络和循环神经网络的文本因果关系自动抽取方法,其特征在于,所述步骤(3)的具体过程如下:
(3-1)局部有效信息学习:利用卷积神经网络对训练集文本信息进行局部信息提取,学习不同部分的局部特征信息,输入为训练集文本信息向量化表示x=(x1,x2,x3,...,xt),输出为预设维度的局部特征信息z;
(3-2)全局信息有效学习:利用循环神经网络,即双向LSTM对训练集进行全局上下文特征信息提取,学习句子上下文全局信息,输入为训练集文本信息向量化表示x=(x1,x2,x3,...,xt),输出为预设维度的全局特征信息k;
(3-3)信息融合:融合(3-1)学习到的局部有效信息和(3-2)学习到的全局信息对因果关系各部分信息进行互补综合;具体步骤包括:
对输出为预设维度的局部特征信息进行有效信息的抽取,得到的最终的有效局部信息为h=z×f(z),其中f()是非线性激活函数;
对输出为预设维度的全局特征信息进行融合,采用将对应的部分特征相加得到特征总和的方式,得到融合结果g(z,k),其中g()是信息融合函数,最后一个维度连接;
(3-4)使用标签转移概率矩阵对(3-3)融合后的信息抽取结果进行约束,使用条件随机场学习输出上下文标签信息,得到最优标注序列。
4.根据权利要求1所述的融合卷积神经网络和循环神经网络的文本因果关系自动抽取方法,其特征在于,所述步骤(4)中的具体过程如下:
(4-1)将预处理后的文本信息作为模型输入;
(4-2)模型输出为因果关系抽取结果,其组成部分为{因部分,因果连接词,果部分}。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大学;阿里巴巴集团控股有限公司,未经上海大学;阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910738220.7/1.html,转载请声明来源钻瓜专利网。