[发明专利]一种关于新技术的领域分类方法在审
申请号: | 202011179996.9 | 申请日: | 2020-10-29 |
公开(公告)号: | CN112307206A | 公开(公告)日: | 2021-02-02 |
发明(设计)人: | 郑鑫;于德尚;陈世坤;徐楠楠 | 申请(专利权)人: | 青岛檬豆网络科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/216;G06F40/242;G06F40/289 |
代理公司: | 武汉聚信汇智知识产权代理有限公司 42258 | 代理人: | 刘丹 |
地址: | 266000 山东省青*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 关于 新技术 领域 分类 方法 | ||
本发明提供一种关于新技术的领域分类方法,其特征在于,包括:步骤1,对新技术提取关键词并计算关键词频率;步骤2,建立新技术领域分类模型并确定领域类别阈值;步骤3,应用新技术领域分类模型和领域类别阈值确认新技术所属领域类别。本发明的关于新技术的领域分类方法,通过计算机对新技术所属领域进行划分,优点是:根据训练集的知识学习,统计领域划分的标准。计算机自动对新技术的所属领域进行划分,能够有效提高工作效率。分类模型的可扩展性较强,同时具备学习性。具备更新能力,计算机自动计算的领域,可作为新技术领域的参考,技术所属人员可进行纠错,分类模型可根据纠错信息,不断更新,以保证更高的准确率。
技术领域
本发明涉及领域分类信息技术领域,具体涉及一种关于新技术的领域分类方法。
背景技术
对于新技术所属领域的划分,采用人工手动方式进行划分,其专业需求较高,需要具备一定知识的广度,同时对分类的类别比较熟悉且清晰的认知。同时,可能存在多领域应用的新技术,所以在新技术所属领域确定上,需要技术人员具备一定的经验知识和各领域的知识储备。
新技术内容中,通常是描述新技术解决的问题,以及新技术所用到的技术和材料等,用语比较简洁。采用人工分类的方法,费事费力,且因为人员流动、人员的知识储备、对知识领域划分的理解不同等原因,可能会造成新技术划分领域的偏差或不完整。
发明内容
本发明的目的是:针对背景技术描述的问题,本发明提出一种关于新技术的领域分类方法,能够替代大部分人工领域划分的工作,并且保证其精确性和划分效率。
为了解决上述问题,本发明所采用的技术方案是:
一种关于新技术的领域分类方法,其特征在于,包括如下步骤:
步骤1,对新技术提取关键词并计算关键词频率,包括:
步骤1.1:对新技术的成果简介或成果介绍提取关键词汇句子;
步骤1.2:对新技术提取的关键词汇句子提取关键词;
步骤1.3:对关键词频率进行计算及统一;
步骤2,建立新技术领域分类模型并确定领域类别阈值,包括:
步骤2.1:准备新技术训练集;训练集包含的内容有:新技术序号、领域类别单一表示之后的新技术数量、领域类别、关键词;
步骤2.2:计算支持度;包括领域类别的支持度、关键词的支持度、关键词在某领域分类中的支持度;
步骤2.3:提取关键词组合及对应词频;
步骤2.4:计算关键词的置信度;
步骤2.5:建立领域分类模型;领域分类模型中,包含了每个领域类别对应出现的关键词以及其对应的置信度;
步骤2.6:确定领域类别阈值;领域类别阈值表示每个领域类别的确认底线,大于或等于该阈值,才能对新技术进行领域分类确认,否则,领域类别确认失败;
步骤3,应用新技术领域分类模型和领域类别阈值确认新技术所属领域类别,包括:
步骤3.1:确定新技术的关键词和对应词频;
步骤3.2:计算新技术的对应所有领域类别的TV矩阵;每个领域类别对应一个TV值;
步骤3.3:确认领域类别;新技术的对应类别TV的计算值大于或等于该类别的阈值,即可判断该新技术属于该领域类别;
步骤3.4:领域类别排序;根据确认的领域类别集合的值进行排序,值越高,说明新技术领域类别属性中,该领域类别属性越高。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于青岛檬豆网络科技有限公司,未经青岛檬豆网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011179996.9/2.html,转载请声明来源钻瓜专利网。