[发明专利]基于主述位理论的汉语基本篇章单元识别方法有效

申请号：	201910476073.0	申请日：	2019-06-03
公开（公告）号：	CN110210033B	公开（公告）日：	2023-08-15
发明（设计）人：	孔芳;葛海柱;周国栋	申请（专利权）人：	苏州大学
主分类号：	G06F40/253	分类号：	G06F40/253;G06N3/08
代理公司：	苏州市中南伟业知识产权代理事务所(普通合伙) 32257	代理人：	苏张林
地址：	215168 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于主述位理论汉语基本篇章单元识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于主述位理论的汉语基本篇章单元识别方法，其特征在于，包括：通过确定EDU中主、述位的位置间接获得EDU的边界，因此可将EDU识别分成两个部分，首先进行主、述位识别，然后在识别主位和述位后再依据一定的规则合并得到EDU；

模型以句子为基本处理单位，输入句子后，进行分词和词性标注，再以词为单位，交由主述位识别模型的Word Sequence Layer层进行编码，再由Inference Layer层进行解码和标注，最终得到主位和述位的边界，最后依据一定的规则进行主、述位的合并，得到最终的EDU边界信息；

所述主述位识别模型包括：

标注体系：

序列化标注方法首先需要标签集合；

待标注的主述位结构分为三种类型：

主述位结构完整型，即包含完整的非单词型的主位和述位；

单词型主位，即主位仅包含一个词；

单词型主位仅由一个词构成，BIE标注体系无法使用，因为开始位置与结束位置冲突，则使用B-T-E表示主位；

隐式主位型，即当前EDU的主位信息可由上下文推导得出，并未显式给出；

隐式主位型的句子为“主位-述位-述位”的序列；对于连续出现多个述位，后续述位是包含隐式主位的EDU；标注方案在主述位的标注中，默认主位省略，不标注主位；

主述位识别模型：

主述位识别模型由两部分构成：Word Sequence Layer和Inference Layer；

Word Sequence Layer需要完成两个任务：任务1处理输入的句子，返回一个由词向量和词性向量拼接而成的序列；任务2对于给定的词信息序列(x₁,x₂,x₃,...,x_n)，提取其对应的上下文特征，返回一个关于输入序列的表示序列(h₁,h₂,h₃,...,h_n)；

在任务1中，一个含有n个词的句子记作：

x＝(x₁,x₂,x₃,...,x_n)

其中x_i表示句子的第i个词在字典中的id，然后，利用预训练的Embedding矩阵将句子中的每个词x_i映射为低维稠密的词向量，最终将词向量、词性向量拼接作为下一个任务的输入；

对于任务2，选用双向LSTM、GCN对输入序列进行建模，动态捕获序列数据信息，得到目标左边和右边的上下文信息，学习长期的依赖关系，自动提取句子特征；

模型的输入为词和词性，在Word/POS Representations部分，通过查找词向量表，借助预训练的词向量将词转化为向量表示，同时随机生成词性向量，最终在每个词处将词向量与词性向量拼接形成整体后，送入Forward LSTM与Backward LSTM中进行特征抽取；Forward LSTM从左向右捕获文本信息，而Backward LSTM以相反方向提取信息；前向LSTM与后向LSTM的隐藏状态在LSTM hidden处串联表示整个序列的全局信息，最终将此信息传入GCN Layer层；

约束1：为了避免丢失节点自己所携带的信息，每个节点添加一个指向自己的特殊的边，指定其标签为SELF；

约束2：信息仅沿着依存弧的方向流动，信息沿着反方向流动；

约束3：由于将标签扩展为正反向和SELF，则原来pyltp使用的14中依存关系被扩展为29种，每种依存关系对应一个矩阵W和向量b，这会使得模型参数过多，存在过拟合的危险，因此在依存关系的具体类别，只保留依存关系的三种方向；

Inference Layer将Word Sequence Layer传来的全局信息作为特征，借助解码环节为每个词分配标签；Inference Layer通常有两种标签分配方式：softmax和条件随机场CRF；主述位识别任务为强输出标签依赖性的任务，而条件随机场处理此类任务，以在相邻标签之间添加转换分数来捕获标签的依赖性；在Inference Layer中，根据Word SequenceLayer传来的全局信息，使用CRF模型进行句子级的序列化标注；

记一个长度等于句子x中词的个数的标签序列为y＝(y₁,y₂,y₃,...,y_n)，模型对于句子x的标签等于y的打分为：

其中，A_ij表示的是从第i个标签到第j个标签的转移得分，从上述公式可以看出整个序列的打分等于各个位置的打分之和，而每个位置的打分由双向LSTM输出的p_i和CRF的转移矩阵A决定；对所有的得分使用Softmax进行归一化后的概率：

其中，x为训练样本，分子上的y为正确的标注序列，对真实标记序列y的概率，得到损失函数：

使用梯度下降等优化方法来求解参数；

模型训练完毕，使用动态规划的Viterbi算法解码，求解最优路径：

y*＝argmaxscore(x,y')

最终，将y*作为预测结果输出；

合并生成EDU。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于苏州大学，未经苏州大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910476073.0/1.html，转载请声明来源钻瓜专利网。