[发明专利]半监督文本简化模型训练方法和系统在审
申请号: | 201910744141.7 | 申请日: | 2019-08-13 |
公开(公告)号: | CN110427629A | 公开(公告)日: | 2019-11-08 |
发明(设计)人: | 俞凯;赵晏彬 | 申请(专利权)人: | 苏州思必驰信息科技有限公司;上海交通大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京商专永信知识产权代理事务所(普通合伙) 11400 | 代理人: | 黄谦;邓婷婷 |
地址: | 215123 江苏省苏州市苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 初始化 语料 平行 简化模型 半监督 文本 参数更新 过程完成 后续迭代 模型参数 重复执行 迭代 监督 更新 转化 | ||
本发明公开半监督文本简化模型训练方法和系统,其中,方法包括:建立复杂句到简单句的转化模型Comp2Simp和简单句到复杂句的回译模型Simp2Comp;分别对Comp2Simp和Simp2Comp进行初始化;利用初始化后的Simp2Comp构造第一平行语料对,利用初始化后的Comp2Simp构造第二平行语料对;利用第一平行语料对对初始化后的Comp2Simp的进行有监督训练,利用第二平行语料对对初始化后的Simp2Comp的进行有监督训练,从而完成第一轮迭代;分别利用参数更新后的Simp2Comp和Comp2Simp重复执行上述构造平行语料对和更新模型参数的过程完成后续迭代。
技术领域
本发明属于文本简化技术领域,尤其涉及半监督文本简化模型训练方法和系统。
背景技术
相关技术中,文本简化是一项自然语言处理任务,目的是减少文本的复杂性,将结构复杂,难以理解的文本改写为简单易懂的句子。简化后的句子更加利于语言的初学者以及非母语的读者更好地理解文本表达的含义,可以广泛地应用于教育以及新闻出版领域。同时,句子简化可以作为一个预处理过程应用在下游的自然语言处理任务上,例如文本分类,关系提取,语义解析等等,对这些任务有一定的促进作用。文本分类作为一个序列到序列的任务,主要的内容有两个:1)将语句中的高级词汇、高级短语表达替换为常见的、易懂的文字。2)修改句子结构,将复杂的句法结构(如从句、复合句)转化为直接的表达结构。目前的文本简化技术主要有三类:基于规则的文本简化系统,基于统计学习的简化系统以及基于端到端框架的神经网络文本简化系统。
相关技术中,主要存在以下文本简化技术:
1.基于规则的模型:制定相应的简化规则来完成相应的简化任务。这种模型需要大量的语法结构简化规则,并使用相应的知识库(词典、同义词库)以及句法解析器进行辅助。例如对于文本“Flower which is very pretty”,通过句法分析可以得知Flower是主语,而“which is very pretty”是一个定语从句,则可以指定规则:当检测到定语从句后,将从句替换为简单定语放置在主语前,根据规则可以将文本简化为“pretty flower”。
2.基于统计学习的模型:统计文本简化的基本思想是对大量的平行语料进行统计分析,以此来构建统计简化模型,并在这模型的基础上定义要估计的模型参数,并设计参数估计算法。简而言之,统计型文本简化就是让机器通过大量分析平行语料库中的内容,根据这些内容类比出对于新内容最恰当的简化方式。
3.基于神经网络的端到端模型:近年来,随着神经网络的盛行和端到端模型(Seq2Seq)框架在各个领域上的观法应用。神经网络文本简化也逐渐崭露头角。该方法同样采用了大规模平行语料训练,将复杂的文本通过编码器(Encoder)进行编码,通过解码器(Decoder)将编码后的文本解码为相对简单的文本。
发明人在实现本申请的过程中发现,现有技术中主要存在以下方案:
(1)没有通用的简化规则
由于语言的丰富性和复杂性,常见的简化规则往往不能覆盖到所有的领域。同时规则系统往往需要大量人为定制的规则,增加了系统的开发成本和维护成本。从效果上看,基于规则的系统忽略了语言本身和上下文的语义信息,简化结果的可读性、流畅性都会有一定的损失。
(2)对大规模平行语料有很强的依赖
统计学习和神经网络都可以获取文本的上下文信息,在文本简化的流畅性和可读性上都有一定的提升。然而,这两种方法需要从大规模的平行语料中获取统计信息,人们需要构造大量的复杂句--简单句文本对来进行训练。而这些训练语料的构造往往需要很大的时间成本和金钱成本。
(3)后续任务的领域迁移困难
文本简化可以作为其他自然语言处理任务的预处理阶段,例如文本分类,关系提取等。现有的简化模型往往存后续任务领域迁移困难的问题,对于特定领域的文本无法有效的简化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州思必驰信息科技有限公司;上海交通大学,未经苏州思必驰信息科技有限公司;上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910744141.7/2.html,转载请声明来源钻瓜专利网。