[发明专利]一种关于新技术的领域分类方法在审
申请号: | 202011179996.9 | 申请日: | 2020-10-29 |
公开(公告)号: | CN112307206A | 公开(公告)日: | 2021-02-02 |
发明(设计)人: | 郑鑫;于德尚;陈世坤;徐楠楠 | 申请(专利权)人: | 青岛檬豆网络科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/216;G06F40/242;G06F40/289 |
代理公司: | 武汉聚信汇智知识产权代理有限公司 42258 | 代理人: | 刘丹 |
地址: | 266000 山东省青*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 关于 新技术 领域 分类 方法 | ||
1.一种关于新技术的领域分类方法,其特征在于,包括如下步骤:
步骤1,对新技术提取关键词并计算关键词频率,包括:
步骤1.1:对新技术的成果简介或成果介绍提取关键词汇句子;
步骤1.2:对新技术提取的关键词汇句子提取关键词;
步骤1.3:对关键词频率进行计算及统一;
步骤2,建立新技术领域分类模型并确定领域类别阈值,包括:
步骤2.1:准备新技术训练集;训练集包含的内容有:新技术序号、领域类别单一表示之后的新技术数量、领域类别、关键词;
步骤2.2:计算支持度;包括领域类别的支持度、关键词的支持度、关键词在某领域分类中的支持度;
步骤2.3:提取关键词组合及对应词频;
步骤2.4:计算关键词的置信度;
步骤2.5:建立领域分类模型;领域分类模型中,包含了每个领域类别对应出现的关键词以及其对应的置信度;
步骤2.6:确定领域类别阈值;领域类别阈值表示每个领域类别的确认底线,大于或等于该阈值,才能对新技术进行领域分类确认,否则,领域类别确认失败;
步骤3,应用新技术领域分类模型和领域类别阈值确认新技术所属领域类别,包括:
步骤3.1:确定新技术的关键词和对应词频;
步骤3.2:计算新技术的对应所有领域类别的TV矩阵;每个领域类别对应一个TV值;
步骤3.3:确认领域类别;新技术的对应类别TV的计算值大于或等于该类别的阈值,即可判断该新技术属于该领域类别;
步骤3.4:领域类别排序;根据确认的领域类别集合的值进行排序,值越高,说明新技术领域类别属性中,该领域类别属性越高。
2.如权利要求1所述的关于新技术的领域分类方法,其特征在于,所述步骤1.1对新技术的成果简介或成果介绍提取关键词汇句子,具体方法包括:利用结巴分词的分词模块函数jieba.posseg.cut(),基于基本词库、停用词库,对新技术进行分词,保留部分词性的词语,作为下一步新技术的描述进行使用;保留的词性包括,名词、动名词、英语、语素词;
所述步骤1.2对新技术的提取的关键词汇句子提取关键词,具体方法包括:利用结巴分词的分词模型函数jieba.cut(),增加专属名词库、停用词库,对步骤1.1关键词汇句子进行分词;按照对应词频,由高到低进行排序;选择前K个关键词作为新技术的关键词,对关键词和对应的词频进行保存,保证后续操作继续使用,表示为{Key,M},其中Key表示关键词,M表示对应的词频;当关键词不足K个时,以关键词的实际个数为准;
所述步骤1.3对关键词频率进行计算及统一,具体方法包括:
(1)计算新技术中关键词的频率:
其中,fkey为关键词key的频率,Mkey为关键词key在该新技术中出现的次数,∑M为该新技术中关键词的词频之和;
(2)统一
采用归一化的方法,将新技术关键词的频率进行统一,降低新技术描述中,因文字本身的数量造成的词频差距;
其中,Fkey为关键词key的归一化后的词频,max(f)为当前新技术中关键词频率的最大值,从而将关键词key的词频,归一化到[0,1]之间。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于青岛檬豆网络科技有限公司,未经青岛檬豆网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011179996.9/1.html,转载请声明来源钻瓜专利网。