[发明专利]一种基于K-means的生物医药专利聚类分析方法在审
申请号: | 201811147583.5 | 申请日: | 2018-09-29 |
公开(公告)号: | CN109446319A | 公开(公告)日: | 2019-03-08 |
发明(设计)人: | 姜迪;叶波;马军 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 专利数据 聚类分析 生物医药 挖掘 信息检索技术 专利申请量 技术情报 技术信息 聚类结果 评价指标 数据样本 专利分析 专利授权 专利信息 传统的 聚类 维度 关联 分析 | ||
本发明涉及一种基于K‑means的生物医药专利聚类分析方法,属于信息检索技术领域。当前,随着时代技术的发展,专利数量急剧增加。专利信息作为技术情报最有效的载体,隐藏了大量的技术信息。传统的专利数据挖掘存在效率低、维度单一、数据样本小、层次不够深入等问题,以无法满足如今对专利数据挖掘的需求。本发明将专利分析中专利申请量、专利授权量、专利成长率、专利有效率4个重要评价指标同时选作为聚类变量进行聚类分析。该方法能够深层次挖掘数据间的关联,较好地对专利数据进行类别划分,使聚类结果更具整体性,以弥补传统专利数据分析的不足。
技术领域
本发明涉及一种基于K-means的生物医药专利聚类分析方法,属于信息检索技术领域。
背景技术
在数据挖掘技术扩展到专利文献挖掘之前,专利信息作为技术情报最有效的载体, 隐藏了大量的技术信息。传统的专利数据挖掘存在效率低、维度单一、数据样本小、 层次不够深入等问题,以无法满足如今对专利数据挖掘的需求。本发明提出了一种基 于层次聚类的生物医药专利聚类分析方法,该方法将专利分析中专利申请量、专利授 权量、专利成长率、专利有效率4个重要评价指标同时选作为聚类变量进行聚类分析。 该方法能够深层次挖掘数据间的关联,较好地对专利数据进行类别划分,使聚类结果 更具整体性,以弥补传统专利数据分析的不足。
发明内容
本发明要解决的技术问题是提供了一种基于K-means的生物医药专利聚类分析方法,该方法能够深层次挖掘数据间的关联,较好地对专利数据进行类别划分,使聚类 结果更具整体性。
本发明的技术方案是:一种基于K-means的生物医药专利聚类分析方法,所述方法的具体步骤如下:
Step1、选定专利申请量、专利授权量、专利成长率和专利有效率作为聚类变量;
Step2、K-means聚类;
所述步骤Step1中的聚类变量计算方法为:
Step1.1、专利成长率为当年授权专利量与上一年专利授权量的百分比;
Step1.2、专利有效率为截止当年最后一日的有效专利数量与截止当年最后一日所 有授权专利数量的百分比;
所述步骤Step2中K-means聚类具体步骤如下:
Step2.1、选择K个初始中心点作为聚类中心;
采用SSE(sum of the squared errors,误差平方和)的方法确定K的取值,具体算法 如下:
其中,ci是第i个簇,p是ci中的样本点,mi是ci的质心,SSE是所有样本的聚类误差,代表了聚类效果的好坏。
Step2.2、在第N次迭代中,对任意一个样本计算其到K个中心的距离,将该样本 归到距离最近的中心所在的类;
Dkl表示Gk和Gl之间的距离,则离差平方和法计算公式如下:
Dki=Wm-Wk-Wi
式中:分别是类Gk、类Gl和类Gm的重心。
由于数据存在不同量纲、不同数量级,为了使各数据之间具有可比性,使数据能在更平等的条件下进行聚类分析,有必要对数据进行标准化变换。因此,采用标准正 态变换方式,把原始数据转换为标准Z分数(Z scores),其计算公式:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811147583.5/2.html,转载请声明来源钻瓜专利网。