[发明专利]一种基于商品方面对齐的抽象式评论摘要生成方法有效

专利信息
申请号: 202010663601.6 申请日: 2020-07-10
公开(公告)号: CN111930930B 公开(公告)日: 2022-09-23
发明(设计)人: 潘浩杰;蔡登;杨荣钦;周鑫;王睿;刘晓钟 申请(专利权)人: 浙江大学
主分类号: G06F16/34 分类号: G06F16/34;G06N3/04;G06N3/08;G06Q30/06
代理公司: 杭州天勤知识产权代理有限公司 33224 代理人: 彭剑
地址: 310013 浙江*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 商品 方面 对齐 抽象 评论 摘要 生成 方法
【权利要求书】:

1.一种基于商品方面对齐的抽象式评论摘要生成方法,其特征在于,包括:

(1)获取商品评论数据,对商品下的评论进行划分,筛选出低质量评论和高质量评论,并用方面对齐的方式将筛选出的评论构建成多评论摘要数据集;具体过程为:

(1-1)收集商品的评论数据,修剪一些自动生成的低质量评论,并删除同一产品下显示超过20次高频次评论;

(1-2)在这些剩余的评论数据上运行方面Aspect提取器,并删除未涵盖任何预先定义的方面的评论;从而得到每个产品包含不同方面的评论;

(1-3)对于每个产品,首先找到点赞数大于10且包含大于3个方面的高质量评论;然后对对应的每个方面,找到10~40个低质量评论组成低质量评论集,所述的低质量评论为点赞数小于1且只包含一个方面的评论;

(1-4)重复上述步骤,生成多组由低质量评论集和对应的高质量评论所组成的(评论集,摘要)对,作为评论摘要数据集;

(2)建立一个序列模型,所述的序列模型包含基于循环神经网络的编码器、解码器和注意力机制;同时加入基于方面的注意力机制;

所述编码器中的循环神经网络为双向长短时记忆网络;所述的序列模型加入了生成词与评论集原始文本的注意力机制,以及生成词与方面Aspect向量的注意力机制;所述序列模型的工作过程如下:

(2-1)编码器对评论集中的每个评论的每个词都编码成一个向量,对于每个评论生成的向量经过自注意力机制生成相应的评论向量;

(2-2)对于每个预定义的方面,随机初始化一个方面向量;

(2-3)对于评论向量集合的方面向量集进行共注意力;

(2-4)解码器每次生成的隐藏层向量采用注意力机制对评论集中的每个评论的每个词的向量、每个评论经过共注意力的向量、每个方面向量经过共注意力的向量进行加权求和并整合得到上下文向量ct,然后将隐藏层向量ht与上下文向量ct用线性函数整合并送入softmax函数中得到预测序列的概率分布;所述softmax函数的公式为:

P(yt|y<t,x)=softmax(Wpct+Wqht+bp)

其中,Wp、Wq和bp都是待训练的参数,yt是解码器输出的第t个单词;

(3)使用Adam优化器在多评论摘要数据集上训练序列模型,直到模型收敛;

(4)使用训练好的模型进行评论摘要生成任务,输入商品的评论后,自动生成摘要。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010663601.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top