[发明专利]一种应用于阅读机器人的摘要生成方法及系统有效
申请号: | 202011264506.5 | 申请日: | 2020-11-12 |
公开(公告)号: | CN112347753B | 公开(公告)日: | 2022-05-27 |
发明(设计)人: | 关勇;李茹;郭少茹;谭红叶;张虎 | 申请(专利权)人: | 山西大学 |
主分类号: | G06F40/194 | 分类号: | G06F40/194;G06F16/34;G06F40/289;G06F40/30;G06N3/04 |
代理公司: | 太原申立德知识产权代理事务所(特殊普通合伙) 14115 | 代理人: | 郭海燕 |
地址: | 030006*** | 国省代码: | 山西;14 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 应用于 阅读 机器人 摘要 生成 方法 系统 | ||
本发明公开了一种应用于阅读机器人的摘要生成方法及系统;包括如下步骤:一、候选摘要抽取单元,在训练集中抽取与当前文章最相似的文章的摘要作为候选摘要;二、框架选择单元,使用框架关系、框架相似度两种度量方法筛选出文章中的重要框架;三、框架编码单元,获取框架的向量表示;四、文章编码单元,获取文章的向量表示;五、框架与文章交互单元,计算框架与文章之间的相互影响,得到最终的文章表示;六、解码单元,根据得到的文章表示生成摘要。本发明首次引入框架语义信息,将其融入到摘要生成模型中,计算了框架与文章之间的相互影响,有效的提升了摘要生成结果。本发明方法思路结构清晰,效果明显,可扩展性强。
技术领域
本发明属于自然语言处理研究领域,具体涉及一种应用于阅读机器人的摘要生成方法及系统。
背景技术
摘要是全面准确地反映某一文本主要内容的简单连贯短文。自动文摘是利用计算机自动地从原始文本中提取摘要,旨在为用户提供文本的简短表示,方便用户快速高效的获取文本信息。该技术广泛应用于各大领域,如军事、公共安全、企业、出版、医疗等。同时面对数据的爆炸式增长,文本摘要生成逐渐成为自然语言处理(NLP)方面的一个热点。
文本摘要技术早期主要是一些基于特征的方法。Knight,K.;and Marcu,D.2002.Summarization beyond sentence extraction:A probabilistic approach tosentence compression.Artificial Intelligence 139(1):91–107.针对摘要生成问题,在解码过程中,借助句法分析工具将文章解析为句法树,然后对句法树进行排序和裁剪,得到最终的文本表示。Zhou,L.;and Hovy,E.2004.Template-filtered headlinesummarization.In Text Summarization Branches Out,56–60.针对标题生成问题,构建了大量的摘要模板及词库,使用不同的规则将词库中的词填充到固定的模板中形成摘要。
近年来,随着大规模数据集的涌现、高性能计算的快速发展,基于深度学习的文本摘要逐渐成为一个研究热点。基于神经网络的方法主要使用编码-解码结构,例如:Rush,A.M.;Chopra,S.;and Weston,J.2015.A Neural Attention Model for AbstractiveSentence Summarization.In Proceedings of the 2015Conference on EmpiricalMethods in Natural Language Processing,379–389.该论文使用了一种局部注意力机制,在生成文档表示的时候考虑了当前解码状态向量的影响。See,A.;Liu,P.J.;andManning,C.D.2017.Get to the point:Summarization with pointer-generatornetworks.arXiv preprint arXiv:1704.04368.针对摘要生成过程中的未登录词和重复问题,分别提出了拷贝机制和覆盖机制,使得模型可以直接从原始输入中复制重要的词,同时防止重复问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山西大学,未经山西大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011264506.5/2.html,转载请声明来源钻瓜专利网。