[发明专利]一种基于商品方面对齐的抽象式评论摘要生成方法有效
申请号: | 202010663601.6 | 申请日: | 2020-07-10 |
公开(公告)号: | CN111930930B | 公开(公告)日: | 2022-09-23 |
发明(设计)人: | 潘浩杰;蔡登;杨荣钦;周鑫;王睿;刘晓钟 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06N3/04;G06N3/08;G06Q30/06 |
代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 彭剑 |
地址: | 310013 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 商品 方面 对齐 抽象 评论 摘要 生成 方法 | ||
本发明公开了一种基于商品方面对齐的抽象式评论摘要生成方法,包括:(1)获取商品评论数据,对商品下的评论进行划分,筛选出低质量评论和高质量评论,并用方面对齐的方式将筛选出的评论构建成多评论摘要数据集;(2)建立一个序列模型,所述的序列模型包含基于循环神经网络的编码器、解码器和注意力机制;同时加入基于方面的注意力机制;(3)利用多评论摘要数据集对序列模型进行训练,直到模型收敛;(4)使用训练好的模型进行评论摘要生成任务,输入商品的评论后,自动生成摘要。利用本发明,能够高效地构造(评论集,摘要)对用于神经网络模型训练,大大地降低了人工标注的成本;训练出来的模型够生成高质量的多评论摘要。
技术领域
本发明属于自然语言处理技术领域,尤其是涉及一种基于商品方面对齐的抽象式评论摘要生成方法。
背景技术
评论系统旨在帮助用户在网上购物时做出更好的交易,并已成为活跃的电子商务环境的重中之重。但是,当评论数量很大时,考虑到大多数评论可能缺乏关键信息,用户不太可能有效地处理历史的评论。另一方面,电商产品下面的评论往往是简短的,点赞量很少,涵盖的商品方面(Aspect)也很少。因此,需要一个多评论摘要系统来帮助用户有效地使用多条评论并消化最相关的信息。
先前的一些工作是提取性的,着重于预测实体的总体评级或估计不同产品特征的评级。抽象方法可能更适合于汇总评估文本,因为在多文档摘要的背景下,抽取式评论摘要可能会导致摘要过于冗长或偏向某些来源。先前的抽象多评论摘要工作采用无监督方法,将多评论摘要减少为选择最佳短语的子集,然后使用自然语言生成(NLG)生成摘要。由人工编写的评论摘要组成的训练数据的准确性成为多评论摘要的瓶颈。因此,我们几乎无法定义监督学习范式用来大规模地评估新兴的方法。这使得了研究人员采用复杂的预处理方法和预定的规则来总结评论。
基于现代神经网络的模型在很大程度上依赖于可用训练数据的质量,已在抽象文本摘要中实现了最先进的性能。具体而言,这种基于神经网络的模型采用了编码器-解码器结构,加上一些注意力的机制。比如2015年发表在自然语言处理顶级会议EmpiricalMethods in Natural Language Processing会议379–389页上的《A Neural AttentionModel for Abstractive Sentence Summarization》首次提出了用这样的序列模型进行句子抽象式摘要的生成,发表在2017年发表在国际顶级计算神经理论会议Annual Meetingof the Association for Computational Linguistics上的《Get To The Point:Summarization with Pointer-Generator Networks》更为简洁地抽象出了这个模型框架,并且提出了一种基于指针机制的生成模型,使得任务效果得到较大的提升。
上述这些方法使用Gigaword,New York Time数据集和CNN/Daily Mail语料库等数据集提高了自动化摘要的性能。但是,用于多评论摘要的数据集很少,构建起来成本也非常高。同时,这类模型没有考虑在商品评论中最关键的部分,也就是商品方面(Aspect),常见的方面如质量、物流和客服服务等。
发明内容
本发明提供了一种基于商品方面对齐的抽象式评论摘要生成方法,可以进行大规模无监督评论语料下的抽象式评论摘要生成,能够生成在流畅性、多样性、信息丰富度等方面上的高质量的多评论摘要。
一种基于商品方面对齐的抽象式评论摘要生成方法,包括:
(1)获取商品评论数据,对商品下的评论进行划分,筛选出低质量评论和高质量评论,并用方面对齐的方式将筛选出的评论构建成多评论摘要数据集;
(2)建立一个序列模型,所述的序列模型包含基于循环神经网络的编码器、解码器和注意力机制;同时加入基于方面的注意力机制;
(3)利用多评论摘要数据集对序列模型进行训练,直到模型收敛;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010663601.6/2.html,转载请声明来源钻瓜专利网。