[发明专利]基于条件随机场的隐式篇章关系识别方法与系统有效
申请号: | 201910909002.5 | 申请日: | 2019-09-25 |
公开(公告)号: | CN110633473B | 公开(公告)日: | 2022-11-08 |
发明(设计)人: | 邬昌兴;曹柳文;杨亚连 | 申请(专利权)人: | 华东交通大学 |
主分类号: | G06F40/253 | 分类号: | G06F40/253;G06F40/211;G06F40/216;G06F40/289;G06F16/35 |
代理公司: | 北京科亿知识产权代理事务所(普通合伙) 11350 | 代理人: | 汤东凤 |
地址: | 330013*** | 国省代码: | 江西;36 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 条件 随机 篇章 关系 识别 方法 系统 | ||
1.一种基于条件随机场的隐式篇章关系识别方法,其特征在于,所述方法包括如下步骤:
将接收到的语句进行编码以得到词向量序列,所述语句至少包括相关联的第一语句以及第二语句;
对所述词向量序列中所述第一语句与所述第二语句之间的篇章关系进行特征提取以得到多个不同级别的特征向量;
根据所述多个不同级别的特征向量,计算得到多个篇章关系分类对应的初步结果数据;
提供用于编码相邻篇章关系之间映射信息的转移矩阵,根据所述转移矩阵以及所述初步结果数据计算得到任一篇章关系序列得分,并根据所述篇章关系序列得分计算得到任一篇章关系序列对应的条件概率。
2.根据权利要求1所述的基于条件随机场的隐式篇章关系识别方法,其特征在于,所述将接收到的语句进行编码以得到词向量序列的方法包括如下步骤:
将接收到的所述语句中的第i个词进行编码得到普通词向量以及上下文敏感词向量其中所述普通词向量为同一个词汇在每个语句中只用一个向量表示,所述上下文敏感词向量为同一个词汇在不同的语句中由不同的向量表示。
3.根据权利要求2所述的基于条件随机场的隐式篇章关系识别方法,其特征在于,所述上下文敏感词向量可表示为:
所述第一语句表示为:
所述第二语句表示为:
其中,a=softmax(w)为正则化后的权重,w∈Rle为需要学习的权重参数,分别为预训练好的上下文词敏感向量模型中le个隐层对应于语句中第i个词的输出,n为语句的最大设定长度,d为普通词向量和上下文敏感词向量的维度之和,所述第一语句以及所述第二语句为对应的词向量序列。
4.根据权利要求1所述的基于条件随机场的隐式篇章关系识别方法,其特征在于,对所述词向量序列中所述第一语句与所述第二语句之间的篇章关系进行特征提取以得到多个不同级别的特征向量的方法包括如下步骤:
将编码后的所述第一语句以及所述第二语句作为输入,经神经网络建模后得到对应的第一编码器输出以及第二编码器输出;
根据所述第一编码器输出以及所述第二编码器输出计算得到相关性矩阵,根据所述第一编码器输出、所述第二编码器输出以及所述相关性矩阵计算得到所述多个不同级别的特征向量。
5.根据权利要求4所述的基于条件随机场的隐式篇章关系识别方法,其特征在于,经神经网络建模后得到的第i层第一编码器输出表示为:
其中,Conva以及Convb为两个卷积操作,σ为sigmoid函数,操作代表向量按元素点乘。
6.根据权利要求5所述的基于条件随机场的隐式篇章关系识别方法,其特征在于,所述相关性矩阵表示为:
其中,f为用于计算两个向量相关性的函数,中的第j行表示所述第一语句中第j个单词与所述第二语句中每个单词的相关性权重,中的第k行表示所述第二语句中第k个单词与所述第一语句中每个单词的相关性权重;
第i个特征层的特征向量表示为:
其中,oi为所述第i个特征层的特征向量,g为用于计算输出的函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东交通大学,未经华东交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910909002.5/1.html,转载请声明来源钻瓜专利网。