[发明专利]基于眼动注意力的抽象文本标题生成方法有效

专利信息
申请号: 201910078105.1 申请日: 2019-01-25
公开(公告)号: CN109800434B 公开(公告)日: 2023-07-18
发明(设计)人: 王小明;谢杰航;庞光垚;王新燕 申请(专利权)人: 陕西师范大学
主分类号: G06F40/258 分类号: G06F40/258;G06F3/01;G06F16/332;G06N3/0455;G06N3/0442;G06N3/082;G06N3/048
代理公司: 北京前审知识产权代理有限公司 11760 代理人: 张波涛;李锋
地址: 710000 陕西省*** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 注意力 抽象 文本 标题 生成 方法
【说明书】:

一种基于眼动注意力的文本标题生成方法,包括:S100:将源文本的文字序列进行词嵌入操作后输入到双向编码器;S200:双向编码器从源文本的嵌入表示中提取上下文语义向量;S300:计算单词和句子的眼动注意力权重;S400:将上下文语义向量作为解码器第一层的初始状态,先计算解码器和双向编码器隐层状态匹配度;再利用所得到的匹配度,进一步计算单词的注意力上下文权重、眼动注意力上下文权重向量;S500:把所述眼动注意力上下文权重向量、解码器第一层在当前时刻的隐藏状态和解码器第二层在上一时刻的隐藏状态输入到解码器第二层中生成相应的标题。该方法提高了生成的标题的准确性和有效性,使得生成的标题更接近人工标题。

技术领域

本公开属于自然语言处理以及文本自动摘要领域,特别涉及一种基于眼动注意力的抽象文本标题生成方法。

背景技术

近年来,随着在线平台的普及,用户每天都会浏览到大量的文本信息。然而,如果文本过于冗长,用户就会感觉阅读变得乏味。鉴于文本标题可以给用户提供文本最基本的信息,同时可以节省用户浏览文本的时间。因此,人们希望通过生成高质量的标题来挖掘文本的重点信息,从而解决信息过载问题。不幸的是,人工生成文本标题需要耗费相当多的人力、时间等资源。不仅如此,“标题党”的横行甚至让用户不能通过标题了解到文本的真实信息。因此,如何自动生成高质量的标题是一项很有意义的研究。

已有的标题生成方法按照生成标题的方式可以分成抽取式方法和生成式方法。顾名思义,抽取式方法是将源文本中最能说明主要内容的句子或单词原封不动的选取出来,再将选取出来的句子连接在一起当作标题。因为利用抽取式方法获得的标题句子是源文本中现有的句子,所以可以避免产生语法问题和逻辑问题。但抽取式方法过于依赖语言学和人工标注,并且通常需要抽取多个句子才能得到源文本完整的信息,不能保持良好的压缩率,从而导致标题质量不高。不仅如此,抽取式方法无法保证标题的连贯性、一致性。比如源句子中包含了代词,简单的抽取、拼接多个句子后根本无法获知代词指的是什么。

相比之下,生成式方法不直接将源文本中的句子作为标题。而是对源文本的语法,语义等信息进行融合,在理解源文本的基础上对源文本的内容进行取舍,裁剪和拼接,最后生成标题。此外,生成的标题中还会包含源文本中没有出现过的单词和短语。因此,生成式方法更符合人工生成标题的过程,但是却不能很好地抓住文本重点信息。同时,上述方法大多利用语法、语境等语言学知识抓住文本的重要信息,缺乏考虑用户的注意力在文本上的停留时间,忽略了譬如眼动数据的人类基础行为数据,导致生成的标题表达能力受限。

发明内容

为了解决上述问题,本公开提供了一种基于眼动注意力的文本标题生成方法,所述方法包括如下步骤:

S100:将源文本的文字序列进行词嵌入操作后把它输入到双向编码器;

S200:所述双向编码器从源文本的嵌入表示中提取上下文语义向量;

S300:根据单词阅读时间计算单词和句子的眼动注意力权重;

S400:将步骤S200得到的上下文语义向量作为解码器第一层的初始状态,先计算解码器的第一层每个隐层状态与双向编码器所有的隐层状态匹配度;再利用所得到的匹配度,进一步计算单词的注意力上下文权重;进而根据所述注意力上下文权重、所述单词和句子的眼动注意力权重和双向编码器的隐藏状态计算得到眼动注意力上下文权重向量;

S500:把所述眼动注意力上下文权重向量、解码器第一层在当前时刻的隐藏状态和解码器第二层在上一时刻的隐藏状态输入到解码器第二层中生成相应的标题。

上述技术方案为了减少编码过程中的信息损失,增加语义向量包含信息的完整性,构建双向编码器来结合源文本的上下文内容,生成上下文语义向量。进而,考虑到眼球跟踪信息的行为数据可以有助于生成高质量的标题,解码器采用了基于眼动注意力机制构建,根据注意力权重捕捉源文本重点信息。

附图说明

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于陕西师范大学,未经陕西师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910078105.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top