[发明专利]基于TF-IDF和领域词典的主题内容聚合分析方法有效
申请号: | 201910359911.6 | 申请日: | 2019-04-30 |
公开(公告)号: | CN110110047B | 公开(公告)日: | 2021-03-19 |
发明(设计)人: | 赵瑞雪;寇远涛;张洁;鲜国建;仲跻亮 | 申请(专利权)人: | 中国农业科学院农业信息研究所 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/335;G06F16/35 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100081 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 tf idf 领域 词典 主题 内容 聚合 分析 方法 | ||
本发明公开了一种基于TF‑IDF和领域词典的主题内容聚合分析方法,属于情报信息处理领域。基于TF‑IDF获取主题需求词的扩展词集;将其作为检索文本遵循基于领域词典的检索策略完成对资源池中多种类型资源的检索,经过审核进行资源删补,对每种目标资源类型,根据资源的时效性、权威性及相关度进行有序排列和发布。与传统方法相比,本方法通过扩展词集保证了主题内资源的检全率,通过基于领域词典的检索策略和具有针对性的各类型资源排序模型,保证了主题内资源的检准率;通过审核原则保障了主题内资源的质量。易扩展易维护,同时大大降低了主题资源内容聚合的时间和人工成本。
技术领域
本发明提出一种基于TF-IDF和领域词典的主题内容聚合分析方法,属于情报信息处理领域。
背景技术
互联网时代,学术资源的出版和发行逐渐转向数字化和虚拟化,知识流通速度不断提升,知识成果产出周期缩短,1950年之后的论文发表量达到此前论文发表总量的400倍之多。知识爆炸时代,资源过载导致科研知识发现需求被淹没,面向特定专业领域主题的学术资源精准发现问题日渐突出。
为帮助科研团队及时掌握其所属研究领域的发展态势及最新研究进展,为领域内课题申报、研究生定题及成果研究的全过程提供资源及知识服务支撑,满足科研主体对特定主题的信息资源需求,传统的解决方式主要采用基于智库的信息资源定时推送服务。这种方式的服务实现流程包括资源来源遴选、检索词确定及人工检索、智库专家审核、检索词迭代调整及补检索,报告编辑及服务推送等几大流程。该种方式可以在一定程度上解决大数据时代知识需求湮没的问题,但是在人工和时间成本上消耗较大,随着资源体量及类型复杂度的不断提升,该种方式的主题资源检全率及资源质量难以保障。总体来说,该方法不具有可持续性,同时不易扩展,每拓展一个新的主题领域所产生的综合成本较高。
发明内容:
鉴于现有算法的不足以及聚合信息的不确定性和复杂性,本发明的目的在于解决自动高效聚合特定主题的信息资源的问题,提出了一种基于TF-IDF和领域词典的主题内容聚合分析方法。
基于该方法基于特征提取算法及领域词典实现面向科研主体特定需求的主题资源内容自动聚合与分析。在获取到主题需求词后,首先基于TF-IDF获取到主题需求词的扩展主题词集合;之后以扩展主题词集合作为检索文本遵循基于领域词典的智能检索策略完成对资源池中多种类型资源的检索,经过审核进行资源少量删补及排序调整,检索结果遵循兼顾相关度、时效性及质量度的资源排序模型;最后完成用户需求专题的定制化配置,并利用前端页面为科研主体呈现主题化的资源聚合和可视化分析服务。
本发明所提出的基于TF-IDF和领域词典的主题内容聚合分析方法,包含如下步骤:
步骤S1:获取用于主题聚合的指定领域和1个初始需求词,并根据初始需求词指定领域词典;
领域词典建立在所指定领域的科学叙词表基础上,科学叙词表包含所指定领域的叙词、非叙词以及词间语义关系;
步骤S2:对初始需求词扩展,得到正式扩展词集,包括如下步骤:
S2-1:语料资源召回
使用步骤S1确定的初始需求词,在原始语料资源库中通过检索,召回K个最相关的资源,作为命中结果集;
此处,原始语料资源库指从资源池中抽取出来的期刊资源,这些资源的关键字段齐全且没有异常字符,所述关键字段包括:标题、关键词、摘要、作者、来源期刊、作者机构;K取值为正整数,该参数决定了进入步骤S2-2语料遴选阶段的资源数量;所述资源池是指通过自建、购买等多种渠道汇聚而成的电子资源集合;
S2-2:语料遴选
抽取命中结果集中各资源的关键字段,包括:标题、关键词、摘要、作者、来源期刊、作者机构,作为关键字段对象集合;
S2-3:语料分词
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国农业科学院农业信息研究所,未经中国农业科学院农业信息研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910359911.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种检索相似文本的方法、装置以及存储介质
- 下一篇:问询指引方法及装置