[发明专利]一种基于长短期记忆网络的比较关系抽取的方法有效
申请号: | 201810472088.5 | 申请日: | 2018-05-17 |
公开(公告)号: | CN108920448B | 公开(公告)日: | 2021-09-14 |
发明(设计)人: | 张雷;夏丽;潘元元;李博;王崇骏 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/247;G06F40/216;G06F16/35;G06N3/04 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 陈建和 |
地址: | 210093 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 短期 记忆 网络 比较 关系 抽取 方法 | ||
1.一种基于长短期记忆网络的比较句关系抽取的方法,其特征在于,包括语料库构建阶段、比较句句型极性分析构建阶段、特征-情感本体库构建阶段和比较要素抽取阶段、比较关系获取阶段,其中,
语料库构建阶段,爬取互联网电商平台的评论数据,并对数据进行预处理,最终形成语料库;
比较句句型极性分析构建阶段,总结语料库中的比较句句型,并对各句型的极性关系展开;
特征-情感本体库构建阶段,总结语料库中的特征词、情感词,并映射到本体库;
比较要素抽取阶段,利用词向量构建句子的向量矩阵表示作为网络的输入,搭建长短期记忆网络并在loss层加入CRF层得到比较要素抽取模型,对比较句中的比较主体、比较客体、比较属性进行抽取;
比较关系获取阶段,综合比较句句型、特征-情感本体库以及比较要素,最终获得比较关系;
所述的爬取互联网电商平台的评论数据,并对数据进行预处理,最终形成语料库包括如下步骤:
S11、利用爬虫技术爬取京东网站上手机版块下的评论数据,涉及品牌有3种以上;
S12、对数据进行预处理,包括如下过程:去除非观点句、按标点符号对句子分句、筛选出比较句、对比较句比较关系进行标注;
所述的比较句句型极性分析构建阶段,总结语料库中的比较句句型,并对各句型的极性关系展开包括如下步骤:
S21、将语料库中的比较句进行句式分类:等比、差比、极比,总结各类的比较搭配;
S22、将S21中的比较搭配利用哈工大同义词词林进行拓展;
S23、将S22中得到的比较搭配模式库按照句式分类进行极性展开;
所述的特征-情感本体库构建阶段包括如下步骤:
S31、对于每个比较句,利用LTP平台进行句法依存关系,得到XML视图X;
S32、对于句子中的每个词语,寻找是否存在父节点与其为SBV关系的词语,若存在则提取父节点对应的词语存入情感词列表,同时提取当前词语存入特征词列表;其中SBV关系是句法依存关系的一种,表示“主谓关系”;
S33、对S32中特征词列表中的词语,借助哈工大同义词词林进行拓展,形成最终的特征词列表featlist;
S34、结合S32中情感词列表和知网情感分析用词语集中的评价类词语集,将情感词分成“一般情感词”及“特殊情感词”,形成情感词列表sentilist;其中一般情感词是指评价词本身表达的极性就是描述特征的极性;特殊情感词是指评价词在评价不同的特征属性时会表达出不同的极性;
S35、结合中关村网站及京东商城对手机的参数描述进行分析,构建手机领域的本体库,形成特征-情感本体库;
S36、将S33和S34中的特征及情感词对应归类到S35总结的手机本体库,形成特征-情感本体库;
所述的比较要素抽取阶段,利用词向量构建句子的向量矩阵表示作为网络的输入包括如下步骤:
S41、利用word2vec训练语料文件得到每个词的词向量xi;
S42、一个长度为n的句子表示为:表示连接操作符,从而构成由词向量构成的句子向量矩阵n*k,k为词向量的维度;
所述的搭建长短期记忆网络并在loss层加入CRF层得到比较要素抽取模型,
对比较句中的比较主体、比较客体、比较属性进行抽取包括如下步骤:
S51、将得到的句子向量矩阵作为输入送入长短期记忆网络中;
S52、根据传统RNN的公式计算当前时刻的候选记忆单元值
其中,Wxc、Whc分别是LSTM单元当前时刻输入数据xt和上一时刻LSTM单元输出数据ht-1的权值参数,bc为偏置参数,tanh为激活函数;RNN为循环神经网络;
S53、计算输入门的值it,
it=σ(Wxixt+Whiht-1+Wcict-1+bi)
其中,Wxi为LSTM单元当前时刻输入数据xt的权值参数,Whi为上一时刻LSTM单元输出数据ht-1的权值参数,Wci为上一时刻候选记忆单元值ct-1的权值参数,bi为偏置参数,σ为激活函数;
S54、计算遗忘门的值ft,
ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf)
其中,Wxf为LSTM单元当前时刻输入数据xt的权值参数,Whf为上一时刻LSTM单元输出数据ht-1的权值参数,Wcf为上一时刻候选记忆单元值ct-1的权值参数,bf为偏置参数,σ为激活函数,
S55、计算当前时刻记忆单元值ct,
其中,⊙表示逐点乘积;
S56、计算输出门ot,
ot=σ(Wxoxt+Whoht-1+Wcoct-1+bo)
其中,Wxo为LSTM单元当前时刻输入数据xt的权值参数,Who为上一时刻LSTM单元输出数据ht-1的权值参数,Wco为上一时刻候选记忆单元值ct-1的权值参数,bo为偏置参数,σ为激活函数,
S57、LSTM单元的输出为:
ht=ot⊙CRF(ct)。
2.根据权利要求1所述的基于长短期记忆网络的比较句关系抽取的方法,其特征在于,所述的比较关系获取阶段,综合比较句句型、特征-情感本体库以及比较要素,最终获得比较关系包括如下步骤:
S61、对于语料库中的每个比较句,匹配S21-S23中的句型的极性关系;
S62、如果是等比句,则根据等比句的极性关系结合S41-42和S51-S57的比较要素确定比较关系;
S63、如果是差比句,则根据差比句的极性关系结合S41-42和S51-S57的比较要素、S31-S36的特征-情感本体库确定比较关系;
S64、如果是极比句,则根据极比句的极性关系结合S41-42和S51-S57的比较要素、S31-S36中的特征-情感本体库确定比较关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810472088.5/1.html,转载请声明来源钻瓜专利网。