[发明专利]一种基于层级注意力和标签引导学习的关键信息识别方法在审
申请号: | 202111319941.8 | 申请日: | 2021-11-09 |
公开(公告)号: | CN114139522A | 公开(公告)日: | 2022-03-04 |
发明(设计)人: | 牛振东;何慧;张春霞;白思萌;易坤 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F40/194 | 分类号: | G06F40/194;G06F40/289;G06K9/62;G06N3/04;G06V30/41;G06V30/413;G06F16/35 |
代理公司: | 北京正阳理工知识产权代理事务所(普通合伙) 11639 | 代理人: | 张利萍 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 层级 注意力 标签 引导 学习 关键 信息 识别 方法 | ||
本发明涉及一种基于层级注意力和标签引导学习的关键信息识别方法,属于文本挖掘和信息处理技术领域。本发明采用基于层级注意力和标签引导学习融合的关键信息识别框架,将文本表示模型直接应用于文本挖掘的局限性,词编码层和句编码层能够充分捕捉文本组织结构,将重要单词聚合为句子向量,然后将重要句子向量聚合为文本向量;词注意力层和句注意力层将注意力机制分别用于单词和句子层面,使其能够在文本表示时区别关注更重要或者次重要的内容;采用标签引导学习层执行基于标签的注意力编码,将文本表示映射到标签空间,标签引导学习层可以直接与上下文编码一起联合学习。本发明在引文分析、信息检索和细粒度知识服务等领域,具有广阔的应用前景。
技术领域
本发明涉及一种信息识别方法,具体涉及一种基于层级注意力和标签引导学习的关键信息识别方法,属于文本挖掘和信息处理技术领域。
背景技术
文献分析在促进科技创新方面发挥着重要作用,有助于研究者全面了解科学技术的发展。例如,近年来生物医学文献数量持续快速增长,平均每天有3000多篇新文章发表在同行评议期刊上,不包括各种档案中的预印本和技术报告(如临床试验报告等)。截至2019年1月,仅生物医学文献数据库PubMed(https://pubmed.ncbi.nlm.nih.gov/)就有2900万篇文章,包含关于新发现和新见解的报告不断被添加到文献中。因此,越来越需要精准的文本挖掘工具从文献中抽取信息。传统的文献分析主要关注主题、作者、摘要、关键词、参考文献等文献元数据,而对文献的目标、背景、方法、结果、结论语句信息等关注较少。上述表达目标、背景、方法、结果、结论信息的语句,统称为关键信息。
目前,文献的关键信息识别技术问题可以转化为文本单标签多分类技术问题。李鹏等人在发明专利“一种基于人工智能的多级文本多标签分类方法及系统”中提出,序列到向量编码模块对输入的“文本-类别”向量序列进行编码,对给定文本预测类别标签;Arman等在文献“Pretrained Language Models for Sequential Sentence Classification”(CoRR,2019)中提出,应用预训练语言模型构造上下文联合句子表示,捕捉上下文依赖性;Chang等在文献“Language model pre-training for hierarchical documentrepresentations”(CoRR,2019)提出,使用条件随机场捕获前后标签之间的依赖,通过考虑标签信息提高句子分类性能;Lin等在文献“A structured self-attentive sentenceembedding”(ICLR,2017)中提出,提出基于序列模型的局部自注意力机制,构建矩阵表示和惩罚项,将句子的不同方面提取到多个向量表示中;Yang等在文献“SGM:sequencegeneration model for multi-label classification”(CoRR,2018)中提出,生成序列模型能够捕获前后标签的依赖,嵌入解码器的局部注意力机制能够在预测标签时自动选择信息量最大的单词。
但是,现有的文献关键信息识别方法绝大多数都是基于序列模型架构,存在以下问题:
由于词分布从一般领域语料库向特定领域语料库转移,现有方法一是将通用语言表示模型直接应用到特定领域文本挖掘中,会使文本学习过程发生偏移;二是在文本表示学习过程中能够捕获源文本细粒度信息和前后标签的依赖,忽略了文本存在特别的层级组织结构,没有将文本结构知识纳入模型架构;三是更多关注局部上下文信息,忽略了标签的差异性,没有将全局标签线索嵌入到文本表示学习过程。
发明内容
本发明的目的是为了克服现有的文献关键信息识别方法存在的不足,为解决文献关键信息高效识别的技术问题,创造性地提出一种基于层级注意力和标签引导学习的关键信息识别方法。
本发明采用的技术方案如下:
一种基于层级注意力和标签引导学习的关键信息识别方法,包括以下步骤:
步骤1:采集文献数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111319941.8/2.html,转载请声明来源钻瓜专利网。