[发明专利]基于主述位理论的汉语基本篇章单元识别方法有效
申请号: | 201910476073.0 | 申请日: | 2019-06-03 |
公开(公告)号: | CN110210033B | 公开(公告)日: | 2023-08-15 |
发明(设计)人: | 孔芳;葛海柱;周国栋 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06F40/253 | 分类号: | G06F40/253;G06N3/08 |
代理公司: | 苏州市中南伟业知识产权代理事务所(普通合伙) 32257 | 代理人: | 苏张林 |
地址: | 215168 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 主述位 理论 汉语 基本 篇章 单元 识别 方法 | ||
1.一种基于主述位理论的汉语基本篇章单元识别方法,其特征在于,包括:通过确定EDU中主、述位的位置间接获得EDU的边界,因此可将EDU识别分成两个部分,首先进行主、述位识别,然后在识别主位和述位后再依据一定的规则合并得到EDU;
模型以句子为基本处理单位,输入句子后,进行分词和词性标注,再以词为单位,交由主述位识别模型的Word Sequence Layer层进行编码,再由Inference Layer层进行解码和标注,最终得到主位和述位的边界,最后依据一定的规则进行主、述位的合并,得到最终的EDU边界信息;
所述主述位识别模型包括:
标注体系:
序列化标注方法首先需要标签集合;
待标注的主述位结构分为三种类型:
主述位结构完整型,即包含完整的非单词型的主位和述位;
单词型主位,即主位仅包含一个词;
单词型主位仅由一个词构成,BIE标注体系无法使用,因为开始位置与结束位置冲突,则使用B-T-E表示主位;
隐式主位型,即当前EDU的主位信息可由上下文推导得出,并未显式给出;
隐式主位型的句子为“主位-述位-述位”的序列;对于连续出现多个述位,后续述位是包含隐式主位的EDU;标注方案在主述位的标注中,默认主位省略,不标注主位;
主述位识别模型:
主述位识别模型由两部分构成:Word Sequence Layer和Inference Layer;
Word Sequence Layer需要完成两个任务:任务1处理输入的句子,返回一个由词向量和词性向量拼接而成的序列;任务2对于给定的词信息序列(x1,x2,x3,...,xn),提取其对应的上下文特征,返回一个关于输入序列的表示序列(h1,h2,h3,...,hn);
在任务1中,一个含有n个词的句子记作:
x=(x1,x2,x3,...,xn)
其中xi表示句子的第i个词在字典中的id,然后,利用预训练的Embedding矩阵将句子中的每个词xi映射为低维稠密的词向量,最终将词向量、词性向量拼接作为下一个任务的输入;
对于任务2,选用双向LSTM、GCN对输入序列进行建模,动态捕获序列数据信息,得到目标左边和右边的上下文信息,学习长期的依赖关系,自动提取句子特征;
模型的输入为词和词性,在Word/POS Representations部分,通过查找词向量表,借助预训练的词向量将词转化为向量表示,同时随机生成词性向量,最终在每个词处将词向量与词性向量拼接形成整体后,送入Forward LSTM与Backward LSTM中进行特征抽取;Forward LSTM从左向右捕获文本信息,而Backward LSTM以相反方向提取信息;前向LSTM与后向LSTM的隐藏状态在LSTM hidden处串联表示整个序列的全局信息,最终将此信息传入GCN Layer层;
约束1:为了避免丢失节点自己所携带的信息,每个节点添加一个指向自己的特殊的边,指定其标签为SELF;
约束2:信息仅沿着依存弧的方向流动,信息沿着反方向流动;
约束3:由于将标签扩展为正反向和SELF,则原来pyltp使用的14中依存关系被扩展为29种,每种依存关系对应一个矩阵W和向量b,这会使得模型参数过多,存在过拟合的危险,因此在依存关系的具体类别,只保留依存关系的三种方向;
Inference Layer将Word Sequence Layer传来的全局信息作为特征,借助解码环节为每个词分配标签;Inference Layer通常有两种标签分配方式:softmax和条件随机场CRF;主述位识别任务为强输出标签依赖性的任务,而条件随机场处理此类任务,以在相邻标签之间添加转换分数来捕获标签的依赖性;在Inference Layer中,根据Word SequenceLayer传来的全局信息,使用CRF模型进行句子级的序列化标注;
记一个长度等于句子x中词的个数的标签序列为y=(y1,y2,y3,...,yn),模型对于句子x的标签等于y的打分为:
其中,Aij表示的是从第i个标签到第j个标签的转移得分,从上述公式可以看出整个序列的打分等于各个位置的打分之和,而每个位置的打分由双向LSTM输出的pi和CRF的转移矩阵A决定;对所有的得分使用Softmax进行归一化后的概率:
其中,x为训练样本,分子上的y为正确的标注序列,对真实标记序列y的概率,得到损失函数:
使用梯度下降等优化方法来求解参数;
模型训练完毕,使用动态规划的Viterbi算法解码,求解最优路径:
y*=argmaxscore(x,y')
最终,将y*作为预测结果输出;
合并生成EDU。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910476073.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:文本处理方法及装置
- 下一篇:信息查询方法、装置、终端及存储介质