[发明专利]基于TF-IDF和领域词典的主题内容聚合分析方法有效

专利信息
申请号: 201910359911.6 申请日: 2019-04-30
公开(公告)号: CN110110047B 公开(公告)日: 2021-03-19
发明(设计)人: 赵瑞雪;寇远涛;张洁;鲜国建;仲跻亮 申请(专利权)人: 中国农业科学院农业信息研究所
主分类号: G06F16/33 分类号: G06F16/33;G06F16/335;G06F16/35
代理公司: 暂无信息 代理人: 暂无信息
地址: 100081 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 tf idf 领域 词典 主题 内容 聚合 分析 方法
【权利要求书】:

1.一种基于TF-idf和领域词典的主题内容聚合分析方法,其特征在于,包含如下步骤:

步骤S1:获取用于主题聚合的指定领域和1个初始需求词,并根据初始需求词指定领域词典;

领域词典建立在所指定领域的科学叙词表基础上,科学叙词表包含所指定领域的叙词、非叙词以及词间语义关系;

步骤S2:对初始需求词扩展,得到正式扩展词集,包括如下步骤:

S2-1:语料资源召回

使用步骤S1确定的初始需求词,在原始语料资源库中通过检索,召回K个最相关的资源,作为命中结果集;

此处,原始语料资源库指从资源池中抽取出来的期刊资源,这些资源的关键字段齐全且没有异常字符,所述关键字段包括:标题、关键词、摘要、作者、来源期刊和作者机构;K取值为正整数,该参数决定了进入步骤S2-2语料遴选阶段的资源数量;所述资源池是指通过自建或购买汇聚而成的电子资源集合;

S2-2:语料遴选

抽取命中结果集中各资源的关键字段,包括:标题、关键词、摘要、作者、来源期刊和作者机构,作为关键字段对象集合;

S2-3:语料分词

将上一步抽取出来的关键字段对象集合进行碎片化,根据预先设置的分词粒度参数和分词策略,形成文本碎片词集;

S2-4:词集过滤

使用停用词表和生活常用词表对文本碎片词集进行过滤:

将文本碎片词集中,隶属于停用词表和生活常用词表的词项提取出,然后将这些词项逐个与核心期刊关键词表对比;若其隶属于核心期刊关键词表,则将其保留在文本碎片词集中,若其不属于核心期刊关键词表,则从文本碎片词集中去除该词项;所述核心期刊关键词表,由从原始语料资源库中的核心期刊收录文章的关键字段构成;

将文本碎片词集保留下来的所有词项的集合称为候选扩展词集合A′;

S2-5:特征词提取

利用TF-IDF算法,对候选扩展词集合A′中的每个词项,计算其与初始需求词的相关度,作为该词项对整个候选扩展词集合A′的重要性程度,设第n个词项对A′的重要性程度为wn;然后将重要性程度wn从大到小降序排列,提取出wn值最大的前M个词项作为特征词,这些特征词构成正式扩展词集A;

其中,M为预先设置参数,表示正式扩展词集A中的词项个数,且取值为正整数;

所述重要性程度计算公式为:

TFn指第n个词项在集合A′中出现的词频,fn为第n个词项在集合A′中出现的次数,fd为集合A′中的词项总个数;log为取对数运算;

IDFn则是第n个词项在集合A′中的逆向词频指数,其中K为步骤S2-1预设的参数,Kn为K条资源中包含有第n个词项的资源数量;

步骤S3:通过检索建立备选资源集,包括如下步骤;

S3-1:检索词扩展

将步骤S2-5得到的正式扩展词集A中各词项基于领域词典进行扩展,即依据该领域词典对应的科学叙词表中英对照及“用代属分参”语义关系对各词项进行上下位、统一词及中英对照词的扩展,并去掉其中的重复词项,生成正式检索词集B;

S3-2:检索词拼接

将正式检索词集B中的各词项拼接成为检索词串,作为检索输入文本,检索词串的拼接规则为词项之间以“或”运算符连接;

S3-3:资源结果召回

首先确定检索涉及的目标资源类型,然后对每种目标资源类型指定相应的关键字段,将关键字段设置为该种目标资源类型的默认检索字段,使用步骤S3-2中获取到的检索词串,在资源池中进行检索时,只在每个资源的默认检索字段进行检索,若该资源的默认检索字段中包括正式检索词集B中的1个或多个词项,则将该资源纳入备选资源集;

所述目标资源类型,包括新闻资讯、中文期刊、外文期刊、OA期刊、领域专家和科研成果;

步骤S4:审核及快速补充,排序后获得最终正式主题结果集

对上述步骤中得到的备选资源集进行审核及补充,形成最终正式主题结果集;包括如下步骤:

S4-1:对备选资源集中各资源按照如下标准进行审核:

(1)根据S3-3中该资源所属的目标资源类型相应的关键字段,查看该资源的关键字段均不为空;

(2)该资源的全部内容无异常字符;

符合以上标准的资源则通过审核,纳入候选主题结果集;当有异常字符的情况下若通过修改可消除的,则修改后也将其纳入候选主题结果集;

S4-2补录新增资源

对每种目标资源类型建立相应的录入模板,所述录入模板指每个类型的资源必填的字段和非必填的字段;

对资源池外其他的与初始需求词高度相关的资源,若拟将其作为新增资源,则首先根据该资源所属的目标资源类型选择相应的录入模板,并按照录入模板录入相应的内容,至少应在对应的录入模板中录入所要求必填的字段;

S4-3新增资源导入

将完成录入的新增资源的关键字段与候选主题结果集中的资源的关键字段进行比对,以排除重复的资源;若非重复资源则将其纳入到候选主题结果集;

S4-4:结果排序

对每种目标资源类型,根据资源的时效性、权威性及相关度,对步骤S4-3获得的候选主题结果集中的资源进行有序排列,获得最终正式主题结果集;

步骤S5:将最终正式主题结果集进行发布,发布时根据不同目标资源类型,按照步骤S4-4获得的排序进行展示。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国农业科学院农业信息研究所,未经中国农业科学院农业信息研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910359911.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top