[发明专利]基于主述位理论的汉语基本篇章单元识别方法有效

专利信息
申请号: 201910476073.0 申请日: 2019-06-03
公开(公告)号: CN110210033B 公开(公告)日: 2023-08-15
发明(设计)人: 孔芳;葛海柱;周国栋 申请(专利权)人: 苏州大学
主分类号: G06F40/253 分类号: G06F40/253;G06N3/08
代理公司: 苏州市中南伟业知识产权代理事务所(普通合伙) 32257 代理人: 苏张林
地址: 215168 江苏*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 主述位 理论 汉语 基本 篇章 单元 识别 方法
【权利要求书】:

1.一种基于主述位理论的汉语基本篇章单元识别方法,其特征在于,包括:通过确定EDU中主、述位的位置间接获得EDU的边界,因此可将EDU识别分成两个部分,首先进行主、述位识别,然后在识别主位和述位后再依据一定的规则合并得到EDU;

模型以句子为基本处理单位,输入句子后,进行分词和词性标注,再以词为单位,交由主述位识别模型的Word Sequence Layer层进行编码,再由Inference Layer层进行解码和标注,最终得到主位和述位的边界,最后依据一定的规则进行主、述位的合并,得到最终的EDU边界信息;

所述主述位识别模型包括:

标注体系:

序列化标注方法首先需要标签集合;

待标注的主述位结构分为三种类型:

主述位结构完整型,即包含完整的非单词型的主位和述位;

单词型主位,即主位仅包含一个词;

单词型主位仅由一个词构成,BIE标注体系无法使用,因为开始位置与结束位置冲突,则使用B-T-E表示主位;

隐式主位型,即当前EDU的主位信息可由上下文推导得出,并未显式给出;

隐式主位型的句子为“主位-述位-述位”的序列;对于连续出现多个述位,后续述位是包含隐式主位的EDU;标注方案在主述位的标注中,默认主位省略,不标注主位;

主述位识别模型:

主述位识别模型由两部分构成:Word Sequence Layer和Inference Layer;

Word Sequence Layer需要完成两个任务:任务1处理输入的句子,返回一个由词向量和词性向量拼接而成的序列;任务2对于给定的词信息序列(x1,x2,x3,...,xn),提取其对应的上下文特征,返回一个关于输入序列的表示序列(h1,h2,h3,...,hn);

在任务1中,一个含有n个词的句子记作:

x=(x1,x2,x3,...,xn)

其中xi表示句子的第i个词在字典中的id,然后,利用预训练的Embedding矩阵将句子中的每个词xi映射为低维稠密的词向量,最终将词向量、词性向量拼接作为下一个任务的输入;

对于任务2,选用双向LSTM、GCN对输入序列进行建模,动态捕获序列数据信息,得到目标左边和右边的上下文信息,学习长期的依赖关系,自动提取句子特征;

模型的输入为词和词性,在Word/POS Representations部分,通过查找词向量表,借助预训练的词向量将词转化为向量表示,同时随机生成词性向量,最终在每个词处将词向量与词性向量拼接形成整体后,送入Forward LSTM与Backward LSTM中进行特征抽取;Forward LSTM从左向右捕获文本信息,而Backward LSTM以相反方向提取信息;前向LSTM与后向LSTM的隐藏状态在LSTM hidden处串联表示整个序列的全局信息,最终将此信息传入GCN Layer层;

约束1:为了避免丢失节点自己所携带的信息,每个节点添加一个指向自己的特殊的边,指定其标签为SELF;

约束2:信息仅沿着依存弧的方向流动,信息沿着反方向流动;

约束3:由于将标签扩展为正反向和SELF,则原来pyltp使用的14中依存关系被扩展为29种,每种依存关系对应一个矩阵W和向量b,这会使得模型参数过多,存在过拟合的危险,因此在依存关系的具体类别,只保留依存关系的三种方向;

Inference Layer将Word Sequence Layer传来的全局信息作为特征,借助解码环节为每个词分配标签;Inference Layer通常有两种标签分配方式:softmax和条件随机场CRF;主述位识别任务为强输出标签依赖性的任务,而条件随机场处理此类任务,以在相邻标签之间添加转换分数来捕获标签的依赖性;在Inference Layer中,根据Word SequenceLayer传来的全局信息,使用CRF模型进行句子级的序列化标注;

记一个长度等于句子x中词的个数的标签序列为y=(y1,y2,y3,...,yn),模型对于句子x的标签等于y的打分为:

其中,Aij表示的是从第i个标签到第j个标签的转移得分,从上述公式可以看出整个序列的打分等于各个位置的打分之和,而每个位置的打分由双向LSTM输出的pi和CRF的转移矩阵A决定;对所有的得分使用Softmax进行归一化后的概率:

其中,x为训练样本,分子上的y为正确的标注序列,对真实标记序列y的概率,得到损失函数:

使用梯度下降等优化方法来求解参数;

模型训练完毕,使用动态规划的Viterbi算法解码,求解最优路径:

y*=argmaxscore(x,y')

最终,将y*作为预测结果输出;

合并生成EDU。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910476073.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top