[发明专利]一种基于论文摘要QA的TopK实体抽取方法与系统有效
申请号: | 202011566711.7 | 申请日: | 2020-12-25 |
公开(公告)号: | CN112651244B | 公开(公告)日: | 2022-12-09 |
发明(设计)人: | 韩周;邓程;徐奕;张伟楠;王新兵 | 申请(专利权)人: | 上海交通大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/216;G06F40/242;G06F16/33;G06F8/30 |
代理公司: | 上海汉声知识产权代理有限公司 31236 | 代理人: | 胡晶 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 论文 摘要 qa topk 实体 抽取 方法 系统 | ||
本发明提供了一种基于论文摘要QA的TopK实体抽取方法与系统,该方法包括数据获取与处理步骤:从数据库中获取相关领域的所有论文,以及从dbpedia官网获取实体库,并整合数据库中的实体,获得dbace实体集;训练相似度模型步骤:进行文本相似度模型训练;构建ES索引步骤:将dbace实体集中的每个实体经过stem处理;检索实体步骤:将论文摘要QA句子送入ES中进行查询;实体特征计算步骤:计算实体列表中的实体与其论文标题、论文摘要和论文摘要QA的相关分数,并计算实体长度和复杂度;训练LTR模型步骤:选取部分文章的实体列表进行人工标注;结果可视化步骤:将单篇论文各个论文摘要QA下的实体列表进行lambdaRank排序。本发明能够使得论文知识图谱构建变得快速、简单、可靠。
技术领域
本发明涉及知识挖掘技术领域,具体地,涉及一种基于论文摘要QA的TopK实体抽取方法与系统。
背景技术
随着科学技术的飞速发展,学术论文的数量在飞速增长。如何从论文摘要中快速抽取出论文的主题内容和框架结构是目前急需解决的问题。
目前主流的NER方法有基于深度神经网络的BiLSTM+CRF,以及基于规则匹配的方法。论文摘要QA指的是基于论文摘要获取其研究的问题、运用的方法、使用的算法和数据集、提出的模型和取得的结果等等问题和每个问题对应的文本内容答案。
针对上述现有技术,前者虽然可以比较准确的找到句子中的实体,以及实体的位置,但是使用神经网络训练模型不仅需要大量的标注数据,而且也很耗费时间。基于规则匹配的方法虽然可以很快地从句子中匹配到实体,但是这个精度却不是很好,比较难以提升,抽取的实体好坏也取决于实体库的准确与否。在需要精度和速度的场景中,以上算法都不能很好的满足要求。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于论文摘要QA的TopK实体抽取方法与系统,能够使得论文的结构体系更加简单清晰,使得论文知识图谱构建变得快速、简单、可靠。
根据本发明提供的一种基于论文摘要QA的TopK实体抽取方法与系统,所述方案如下:
第一方面,提供了一种基于论文摘要QA的TopK实体抽取方法,所述方法包括:
数据获取与处理步骤:从数据库中获取相关领域的所有论文,包括论文ID、论文标题、论文作者、论文摘要和论文摘要QA在内的字段,以及从dbpedia官网获取实体库,并整合数据库中的实体,获得dbace实体集;
训练相似度模型步骤:将dbace实体集中所有实体的description和所有领域论文的摘要QA、论文标题用作TFIDF模型的语料库,进行文本相似度模型训练;
构建ES索引步骤:将dbace实体集中的每个实体经过stem处理,将字段id、description、entity_name、stem用于构建ES索引;
检索实体步骤:利用ESA的方法,将论文摘要QA句子送入ES索引中进行查询,并对结果进行处理,得到实体列表;
实体特征计算步骤:计算实体列表中的实体与其论文标题、论文摘要和论文摘要QA的相关分数,以及计算实体长度和复杂度在内的特征;
训练LTR模型步骤:选取部分文章的实体列表进行人工标注,将实体的description与论文摘要QA进行对比,如果实体合理且相关则标签标为1,否则为0;并基于实体特征和标签训练pairwise模式的lambdaRank排序模型;
结果可视化步骤:将单篇论文各个论文摘要QA下的实体列表进行lambdaRank排序,取前K个实体,并对结果可视化展示。
优选的,所述数据获取与处理步骤包括:
论文数据获取与处理子步骤:从数据库获取论文相关数据,并存储在JSON文件中;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011566711.7/2.html,转载请声明来源钻瓜专利网。