[发明专利]文档层次结构联合全局局部信息抽取关键短语方法及系统在审
申请号: | 202210697632.2 | 申请日: | 2022-06-20 |
公开(公告)号: | CN115017903A | 公开(公告)日: | 2022-09-06 |
发明(设计)人: | 赵姝;殷俊;郭双瑞;张金磊;段震;陈洁 | 申请(专利权)人: | 安徽大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06F40/216;G06F16/35 |
代理公司: | 合肥市浩智运专利代理事务所(普通合伙) 34124 | 代理人: | 朱文振 |
地址: | 230039 *** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 层次 结构 联合 全局 局部 信息 抽取 关键 短语 方法 系统 | ||
本发明提供文档层次结构联合全局局部信息抽取关键短语方法及系统,方法包括:分词和磁性标注,NP分块;判断文档长度,根据文档长度使用BERT模型进行文档和单词的嵌入;全局相似性度量,本发明创新性地使用文档标题和结尾来对候选关键短语进行全局相似度评估,解决因为向量空间对齐造成的对较长候选短语的偏爱;局部相似度评估,采用全新的主题中心度,对全文的候选关键短语进行主题划分和聚类,充分捕获到局部显著信息;结合位置信息、全局相似度、局部相似度对候选短语进行综合评估并打分,然后根据得分进行排名;进行后处理操作,以选择关键短语。本发明解决了语义丢失、偏爱长短语、主体信息挖掘不充分导致关键短语抽取准确率低的技术问题。
技术领域
本发明涉及文本分析技术领域,具体涉及文档层次结构联合全局与局部信息抽取关键短语方法及系统。
背景技术
关键短语是文档中提供核心内容简明摘要的短语,可帮助读者在短时间内了解文章的内容。由于表达简洁准确,关键短语被广泛运用于信息检索、文档分类、推荐和搜索中。基于嵌入的方法被广泛用于无监督的关键短语提取任务。通常,这些方法只是简单地计算短语嵌入和文档嵌入之间的相似性,在方法实用性和有效性方面均存在提升空间。
已经有大量学者对文本的关键词抽取展开研究,相关方法总体上可以分为无监督抽取方式和有监督抽取方式。
有监督方法[Sterckx et al.,2016;Alzaidy et al.,2019;Sun et al.,2020;Muet al.,2020]通常将关键短语抽取看作时一个二分类问题,他们不仅需要大规模带注释的训练数据,并且在转移到不同领域或类型的数据集时总是表现不佳。与有监督的方法相比,无监督的方法通过基于输入文档本身的信息提取短语,更具通用性和适应性。因此在本专利中,我们聚焦于无监督关键短语抽取模型。
无监督关键短语抽取已经被大量学者研究,最近随着文本表示学习的进展,基于嵌入的方法,如EmbedRank[Bennani-Smires 2018]和SIFRank[Sun 2020]取得了很好的效果。通常这些方法都是通过静态的预训练模型Word2Vec或者动态的预训练模型BERT对候选短语和文本进行嵌入,然后计算候选短语和整个文本之间的嵌入相似度,并根据得分进行排序。尽管基于嵌入的方法会比传统的基于统计(例如TF-IDF[Salton G,1975])、基于图(例如PositionRank[Corina Florescu 2017])的方法表现更好,但是简单的计算候选短语和全文之间的相似度并不能捕获到不同类型的上下文。CCRank[Liang et al.,2021]首次提出了联合建模全局信息和局部信息来进行关键词抽取,但是他的方法还存在两个问题。第一是由于BERT模型的限制,他的方法在长文本上会自动截断前512个token,这样会导致大量的语义丢失;第二,由于全文向量和候选短语向量嵌入在语义空间上不对齐,因此他的全局相似度会给候选短语长的短语更高的分数,这样会导致模型更偏爱长的候选短语;第三,他只是简单的使用边界特性来建模局部信息并没有充分挖掘到文章的主题信息。本发明将关键短语和全文向量进行嵌入之后并可视化展示如下图4所示。五角星是文章的向量嵌入,有颜色加粗且靠近的节点属于同一个主题,以前的基于嵌入的方法只考虑了全局相似度,也就是只会选择黑色虚线框里面的候选短语,这显然是没有考虑到文章的局部主题的重要性,但是来自边界的短语通常只能代表文章的一小部分主题,并不能充分挖掘候选关键短语之间的主题信息。此外以前的短语没有考虑到BERT只能编码512个token的限制,所以在面对长文本时通常选取截断的方式,只会获得标题+摘要的候选关键短语,没有得到结论部分的关键短语,导致没有获得充分的语义信息,使得效果不好。公开号为CN111160017A的现有发明专利文献《一种关键词抽取方法、装置、计算机设备和存储介质》将待处理文本数据输入至利用携带集合编码的序列标注样本训练得到的关键词抽取网络模型,能够通过标准关键词充分发掘上下文的语义相关性,提高了关键词抽取的准确率。本申请还提供一种话术评分方法、装置、计算机设备和存储介质,通过将待评分话术输入已训练的关键词抽取网络模型,能够针对不同业务场景,抽取出只具备业务相关的话术中的关键词。该现有专利文献的说明书中还披露了服务器104中部署有基于ERNIE-BiLSTM-CRF三层网络单元组成的初始关键词抽取网络模型,ERNIE网络单元是基于BERT模型的改进版本,其针对中文词汇级别的任务进行了优化,对中文实体及实体关系抽取具有更好的效果。模型主体结构和BERT模型相同,由12个编码器层组成的技术方案。该现有专利文献并未完全公开本申请的技术方案,也无法达到本申请的技术效果。公开号为CN113255340A的现有发明专利文献《一种面向科技需求的主题提取方法、装置和存储介质》中披露的方法包括:获取科技需求文本数据,所述科技需求文本数据中携带行业领域一级主题类别标签;基于属于同一一级主题类别的科技需求文本数据分别获得单词向量和文档向量;利用基于深度学习的主题模型基于所述单词向量和文档向量获取主题词向量表示和主题词集;以主题词向量为基础基于预定的聚类数目对科技需求文本数据进行聚类;利用文本排序算法对主题词集内的主题词作为关键词进行提取并对提取的主题词进行排序,根据主题词得分筛选出作为二级聚类主题类别标签词的主题词,并将得分最高的主题词作为本类别二级主题代表。该现有专利文献并未完全披露本申请的技术方案,也无法达到本申请的技术效果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽大学,未经安徽大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210697632.2/2.html,转载请声明来源钻瓜专利网。