[发明专利]科技论文数据文本语义特征提取方法、系统及存储介质有效
申请号: | 202210745539.4 | 申请日: | 2022-06-29 |
公开(公告)号: | CN114818737B | 公开(公告)日: | 2022-11-18 |
发明(设计)人: | 薛哲;杜军平;郑长伟;李文玲;梁美玉;邵蓥侠;寇菲菲 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京金咨知识产权代理有限公司 11612 | 代理人: | 岳燕敏 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 科技 论文 数据 文本 语义 特征 提取 方法 系统 存储 介质 | ||
本发明提供一种科技论文数据文本语义特征提取方法、系统及存储介质,所述方法包括:获取科技论文的文本信息,并基于获取到的科技论文的文本信息构建实体关系图,所述文本信息包括论文标题以及关键词,实体关系图中的节点为论文标题或关键词,实体关系图中的边为节点之间的关联关系;基于获取到的科技论文的文本信息提取语义特征,得到语义特征矩阵;基于实体关系图确定原始邻接矩阵,将语义特征矩阵及所述原始邻接矩阵输入至图网络模型,得到空间特征矩阵;将语义特征矩阵与空间特征矩阵进行特征融合,得到科技论文的最终语义特征。该特征提取方法在提取科技论文语料的语义特征的基础上,利用知识图谱的空间关联,可较好的提取到科技论文的语义特征。
技术领域
本发明涉及计算机技术领域,尤其涉及一种科技论文数据文本语义特征提取方法、系统及存储介质。
背景技术
科技论文作为重要的研究成果展示与信息获取来源,几乎每日都有大量的科技论文被发表,这些学术成果包含多种最新的专业领域信息,有效快速的获取这些科技论文并进行语义特征的表示与学习显得尤为重要。然而科技论文数据中往往包含大量复杂的属性,例如论文的摘要、关键词、引用文献等,论文之间的关联更加紧密,此外,论文中大量的专业知识覆盖学科广泛,使得科技论文的特征提取需要大量的专业知识;有效提取论文数据的特征可以为科技论文数据的处理提供支撑。
TF-IDF(term frequency–inverse document frequency)是一种传统的文本特征提取方式。它使用词频以及逆文档频率,将文档表示为关键词权重的多维向量表示,是一种典型的向量空间模型。Mikolov等基于连续词袋模型(CBOW)和Skip-Gram模型引入了一种词向量表示模型Word2Vec,整个NLP领域很快就进入了embedding的世界。传统的编码方式主要以onehot编码为主,这种编码方式得到的向量往往是稀疏的,Word2Vec训练出的词向量是低维、稠密的,它有效利用了词的上下文信息,使得向量的语义信息更加丰富。Li等人使用Word2vec算法处理语义鸿沟,并实现HTTP流量的词频-文档频率倒数(TF-IDF)加权映射以构造低维段落矢量表示减少复杂性;而Word2vec由于再训练后,每个词的语义向量就不会改变,无法结合上下文语义获取不同的向量。Peters等人为了解决Word2vec缺乏上下文适应的问题,提出了 ELMo 模型;与静态的词嵌入表示模型获取的语义表示向量保持不变的特点不同,ELMo 首先需要在一个大规模的语料上进行预训练,在预训练结束后,再根据具体的应用领域进行微调,从而达到领域适应的目的,使得一个词能够根据当前语境获取特殊的向量。GPT同样采用一个语料库来获取预训练模型,再通过一个小规模的语料进行微调,与 ELMo 相比,二者的主要区别在于特征提取所采用的网络结构不同,GPT采用的是Transformer,而ELMo采用的是LSTM。Transformer是谷歌提出的一种端到端的序列模型,在此模型的基础上,很多改进方法广泛应用于自然语言处理,甚至是图像等领域;与传统的序列模型相比,Transformer完全采用注意力机制组成网络,通过编码器、解码器的结构组成整个网络;谷歌在此基础上进一步提出了BERT模型,BERT模型通过mask机制,遮挡语料中部分单词进行预测任务,从而进行模型的预训练,并采用双向编码的方式,有效地提取了文本的上下文语义。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210745539.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种LED外延结构及其制备方法
- 下一篇:一种弯折塑料打孔装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置