[发明专利]一种基于泛条件随机场的中文缺失代词补全方法在审
申请号: | 202011118541.6 | 申请日: | 2020-10-19 |
公开(公告)号: | CN112163431A | 公开(公告)日: | 2021-01-01 |
发明(设计)人: | 杨婧璇;李思;徐雅静;高升;郭军;许珂瑞 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F40/35 | 分类号: | G06F40/35;G06F40/284 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 条件 随机 中文 缺失 代词 方法 | ||
本发明公开了一种中文缺失代词补全方法,属于信息处理领域,该方法的特征包括:顺序拼接输入文本前后句子构建输入文本上下文词向量矩阵;Transformer编码器自注意力机制建模形成输入文本上下文词语层面语义信息矩阵;构建输入文本词向量矩阵;Transformer解码器自注意力机制建模形成输入文本词语层面语义信息矩阵;Transformer解码器交互式注意力机制从输入文本上下文词语层面语义信息矩阵中推理总结出缺失代词所指语义信息向量矩阵;将缺失代词所指语义信息向量矩阵输入多层感知器得到缺失代词概率分布;根据已制定好的规则为已经预测出的标签序列构建泛条件随机场图模型;通过最大化整个对话片段标签序列得分优化补全整个对话片段的缺失代词;预测输入文本各词语前缺失代词类型。
技术领域
本发明涉及信息处理领域,特别涉及一种基于泛条件随机场的中文缺失代词补全方法。
背景技术
现有研究表明,英文表述中对于明确代词的使用率超过92%,然而在中文对话中只有64%,这表明了中文是一种倾向于省略代词的语言,这种现象在非正式对话体裁中出现尤其显著。缺失代词补全在翻译任务里,即将一种倾向于省略代词的语言(如:中文)翻译成为明确代词语言(如:英文)的过程中,可以避免造成严重的语义混淆问题。因此中文对话中的缺失代词补全是一项非常值得研究的任务。
传统的缺失代词补全问题利用了特征工程的方法,将语义、语法、先行词等信息作为特征,利用有监督的序列标注模型预测每一个输入文本的词语前缺失代词的类型。然而特征工程的方法十分依赖人工设计的特征,对于每一类特征的依赖程度也随着数据不同而变化,需要专家花销大量人工时间来对特征工程进行构建。基于深度学习的方法通过从缺失代词词语周围小范围窗口及大范围上下文语句中总结缺失代词所指语义信息,通过多层感知器预测缺失代词概率分布。然而这些基于深度学习的方法没有考虑相邻句间句首缺失代词间转移关系,这些转移关系与两句话的逻辑关系紧密相关,对于提高缺失代词补全任务的表现起到很重要的作用。本发明为了解决上述问题,采用了深度学习网络与泛条件随机场结合的方法,首先通过Transformer结构中的自注意力机制对输入缺失代词文本及其上下文做语义信息编码,并利用交互式注意力机制从上下文中推理并总结出缺失代词所指语义信息,通过多层感知器预测缺失代词概率分布。然后根据预先制定好的图模型构建规则为预测出的对话中缺失代词标签序列构建泛条件随机场图模型,最大化整个对话片段中的缺失代词序列根据转移关系的得分,同时输出整个对话片段中补全的缺失代词类型的序列。实验证明本发明在中文缺失代词补全任务上有非常好的效果。
发明内容
为了解决现有的技术问题,本发明提供了一种基于泛条件随机场中文缺失代词补全方法。方案如下:
步骤一,我们将输入文本上下文中的每一个词语都映射为词向量,将文本参数化,将上下文转词语化为一个词向量矩阵。
步骤二,我们使用Transformer结构编码器中的自注意力机制对输入文本上下文词向量矩阵进行处理,得到上下文各词语相关的语义信息矩阵。
步骤三,我们对缺失代词输入文本的每一个词语都映射为词向量,将文本参数化,将输入文本转化为输入文本词向量矩阵。
步骤四,我们使用Transformer结构解码器中的自注意力机制首先对输入文本词向量矩阵进行处理得到输入文本词语层面语义信息矩阵。
步骤五,我们利用Transformer结构解码器中的交互式注意力机制从上下文语义信息矩阵中推理出描述缺失代词所指的词语并总结出缺失代词所指语义信息。
步骤六,我们将从上下文中总结出的缺失代词所指语义信息输入多层感知器预测输入文本中缺失代词概率分布。
步骤七,我们根据预先定义好的构图规则对输入对话片段中预测出的补全缺失代词序列构建泛条件随机场图模型。
步骤八,我们通过建模整个对话片段标签序列间转移关系全局最大化整个对话片段补全代词序列得分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011118541.6/2.html,转载请声明来源钻瓜专利网。