[发明专利]一种基于预训练语言模型的观点摘要评价系统有效
申请号: | 202110331685.8 | 申请日: | 2021-03-29 |
公开(公告)号: | CN113032550B | 公开(公告)日: | 2022-07-08 |
发明(设计)人: | 蒋涵;王雨滨;吕松昊;卫志华 | 申请(专利权)人: | 同济大学 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F16/35;G06F40/211;G06F40/30;G06K9/62;G06Q10/06 |
代理公司: | 上海科律专利代理事务所(特殊普通合伙) 31290 | 代理人: | 叶凤 |
地址: | 200092 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 训练 语言 模型 观点 摘要 评价 系统 | ||
一种基于预训练语言模型的观点摘要评价系统,包括预处理模块、观点摘要模块与算法评价模块。预处理模块包括分句处理和主观性分析,对原生语料通过分句和长度限制过滤后,借助预训练语言模型进行主观性分析以保留主观性较强的句子;观点摘要模块使用特定预训练语言模型生成语义向量并进行谱聚类,结合效果指标与少数舍弃策略获取若干个包含不同潜在主流观点的聚类簇,并从每个聚类中心附近抽取作为最终主流观点的主观句,通过语义修正以缓解口吻差异带来的阅读问题;算法评价模块借助主流观点数据集,对生成观点的主题召回率、正负极性进行自动评价,对算法生成观点与参考观点的对应程度进行人工评价,综合上述指标对摘要算法的效果给出合理评估。
技术领域
本发明属于自然语言处理领域。
背景技术
得益于信息技术的蓬勃发展以及新冠疫情影响下人们对网络社交软件日益增长的需求,诸如论坛、视频会议等软件将逐渐成为人们日常工作生活中的重要部分,由此将带来讨论记录型语料规模的显著增加。另一方面,蓬勃的互联网技术使得人们每天能接触到大量不同领域的信息,造成了信息过载的问题,人们为了从海量信息中获取关键内容所需的时间成本大幅提升。同时,现代快节奏生活和时间的碎片化也进一步激发人们对快速捕捉关键信息、随时了解热点话题的需求。讨论记录型语料作为人们日常生活中表达立场、阐述观点的语句集合,不可避免地具有用语口语化、语法不规范、观点多而杂等特点。如何运用自然语言处理技术,从讨论记录中获取主要观点并以摘要的方式呈现,是互联网+时代下进行舆情分析、快速获取热点话题关键信息的一个重要课题。
传统的摘要技术往往将语料中的句子转化成语义单元序列,通过提取抽象语义和序列信息对词句进行表征。这种算法在针对用语规范的语料,如新闻报道、正式会议讲话、科技文献时有着不错的表现,然而面对口语化严重的讨论记录型语料,容易表现出以下不足:
1)讨论记录型语料包含大量的个人亲历和客观事实阐述,这些内容无法直接体现主要观点,而传统的摘要技术难以将这些语句和其它语句加以区分;2)讨论记录型语料包含观点多而杂,传统的摘要技术难以真正获取其中的主要观点;3)讨论记录型语料口语化严重,传统摘要技术得出的结果可能有明显的语句不通和歧义,摘要结果难以阅读;4)传统摘要相对单一的评价标准不适用于讨论记录型语料的摘要,而目前尚未有一种针对此类语料摘要的评价标准。因此,目前亟待发明一种能够有效筛选出讨论记录型语料中的强主观性语句,获取其中的主流观点并生成摘要的新型自动摘要算法及其相应的评价标准。
发明内容
在正处于并可能长期处于新冠疫情影响下的互联网+时代,网络会议、论坛等社交工具的使用热度将在未来一段时间内持续增长。如何从生命周期较短、体量庞大的讨论记录中及时获取主要观点和情感倾向,是进行舆情调查等工作的关键问题。随着自然语言处理领域预训练模型的快速发展和连续突破,基于预训练语言模型与讨论记录特征,设计自动摘要算法及算法评价标准成为解决该问题的可行途径。
现有自动摘要算法将文本中的句子建模成语义单元序列,提取抽象的语义和序列信息对词、句进行表征,将自动摘要任务转化成序列任务。这种方法应用面广泛,在新闻标题生成、科技文献摘要生成、搜索结果片段选取、评论摘要生成等应用场景下发挥均较出色,但仍具有一定局限性:对大型语言模型进行预训练成本较高,需要特定的训练数据;待摘要的文本多为上下文关联较为紧凑、长度中等偏短的连贯文本,对其他类型的语料摘要能力较差。
讨论记录的特点有时效性短、数据量大、上下文关联不一定紧密,以及围绕一个主题展开,但同时包含多种观点主旨与情感倾向等。并且,与现有的多文档摘要任务中的多文档比较,讨论记录的结构化程度更弱,即少有或没有以长度相近的单篇文档为基本单元的内部结构;口吻或文体不统一,口语与书面、议论与记叙等并存;包含的情感信息更为复杂多变。因此本申请提出一种基于预训练语言模型的观点摘要算法及其评价标准,以便新语料的挖掘。
为此,给出技术方案:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110331685.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种单点支撑的整面受力按键结构
- 下一篇:一种固硫灰制备装配式保温墙板的方法