[发明专利]一种基于预训练语言模型的观点摘要评价系统有效

专利信息
申请号: 202110331685.8 申请日: 2021-03-29
公开(公告)号: CN113032550B 公开(公告)日: 2022-07-08
发明(设计)人: 蒋涵;王雨滨;吕松昊;卫志华 申请(专利权)人: 同济大学
主分类号: G06F16/34 分类号: G06F16/34;G06F16/35;G06F40/211;G06F40/30;G06K9/62;G06Q10/06
代理公司: 上海科律专利代理事务所(特殊普通合伙) 31290 代理人: 叶凤
地址: 200092 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 训练 语言 模型 观点 摘要 评价 系统
【权利要求书】:

1.一种基于预训练语言模型的观点摘要评价系统,其特征在于,包括预处理模块、观点摘要模块和算法评价模块;

预处理模块包括分句处理和主观性分析,首先通过分句处理获取长度在200字以内、单句包含至多一种观点或情感的句子集合,并筛去可能存在的非文本信息,主观性分析借助预训练语言模型对集合中句子进行二分类,以实现保留主观句目的;

观点摘要模块,首先使用特定预训练语言模型进行指定方向的语义挖掘,获取主观句表征即语义向量,并对语义向量进行谱聚类,结合效果指标与少数舍弃策略获取若干聚类簇,每个聚类簇代表一个潜在的主流观点群,再从类簇中心抽取作为最终主流观点的主观句并进行语义修正;

算法评价模块,结合自动与人工评价,适用于观点摘要算法的三段式评价标准,借助自行标注的主流观点数据集,通过对生成观点的主题召回率、正负极性进行自动评价,对算法生成观点与参考观点的一一对应程度进行人工评价,最后综合上述评价标准评估主流观点自动摘要算法的效果;

预处理模块中进行主观性分析时,对微调预训练模型使用的语料进行标注,标注过程中对于“主观性数据”的判定标准为:

对于某一条句子,通过语义层面的深入理解以判断是否带有主观性,包含“认为”、“觉得”、“希望”表示主观态度的词汇或表达观点、评价、情感、信念、推测、判断、指控或立场的句子,都被列入主观性数据的范畴,而包含例子或事实的描述性句子,以及过于口语化的句子,都被排除出主观性数据的范畴;然后使用训练数据构建主观性分析模型;

构建主观性分析模型,具体包括:

使用语料对预训练语言模型BERT进行微调后,即得到主观性分析模型,将分句处理所得句子集合输入主观性分析模型中进行预测,得到每条句子的主观性预测概率,通过设定概率阈值对整个句子集合进行过滤,保留的讨论语句具备较强主观性,在后续步骤中用于主流观点提取;

观点摘要模块中构建语义向量:

对于同一话题下的主观句集合,首先获取集合中的最长句子长度,将集合中所有句子重复延长至同一长度,多余部分从单侧截断,以最小化句子长度差异对后续向量计算与聚类效果的影响;然后使用在Sentence-BERT架构下对预训练模型BERT进行微调,得到的多语言语义挖掘模型distiluse-base-multilingual-cased-v2计算主观句的语义表征,得到语义向量集合,以提取主观句中的语义与情感信息。

2.如权利要求1所述的一种基于预训练语言模型的观点摘要评价系统,其特征在于,算法评价模块的具体实施方式包括:

1)对主题召回率进行自动评价,定义话题u的生成观点集合为参考观点集合为其中p,q示观点数量;生成观点集合Xu对参考观点集合Yu的n元主题召回率为Recalln(u),利用如下公式进行计算:

其中为生成观点集合Xu对参考观点的n元主题召回率,计算方式如下:

上式中分子是Xu与中能够匹配的n-gram个数,分母是中的n-gram个数;

θr为完整度系数,随i的变动程度越小,即方差越小,完整度系数θr的值越大,计算方式如下:

2)对正负极性进行自动评价,为考察算法生成的主流观点体现的总体情感倾向是否正确,通过计算、比对生成观点与参考观点的正负极性比例进行评估,定义话题u下生成观点集合Xu的正负极性分数为Polar(u),利用如下公式进行计算:

其中为话题u下经情感分类,被标记为正类的生成观点数,为正参考观点数;

3)对观点匹配程度进行人工评价,为考察生成观点和参考观点的一一对应程度,本发明借助人工评价进行打分,定义话题u下生成观点集合Xu与参考观点集合Yu的观点匹配分数为Match(u);

按照生成观点的主次即类簇大小降序排列,评分者依次将每个生成观点与当前未匹配且最相似的参考观点进行匹配,获取若干匹配观点组(x,y)与每组观点的相似性分数Scru(x,y),则Match(u)可利用如下公式进行计算:

其中θm为奖励系数,当所有观点均匹配上时,话题的参考观点数量q越多,θm越大,计算公式如下:

相似性分数Scru(x,y)由评分者通过比对观点得出,拟定评分规则为:搭边即有部分关键词相似,0.3分;生成观点包含参考观点的部分语义,0.6分;参考观点包含生成观点的部分语义,0.7分;语义重合或高度相似,1.0分;

4)最终评分,上述三项分数Recalln(u),Polar(u),Match(u)均小于1,进行加权平均获取最终评分Score(u),计算公式如下:

Score(u)=∑nαr,nRecalln(u)+αpPolar(u)+αmMatch(u);

其中αr,npm为系数。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110331685.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top