[发明专利]一种基于K-means的生物医药专利聚类分析方法在审

申请号：	201811147583.5	申请日：	2018-09-29
公开（公告）号：	CN109446319A	公开（公告）日：	2019-03-08
发明（设计）人：	姜迪;叶波;马军	申请（专利权）人：	昆明理工大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06K9/62
代理公司：	暂无信息	代理人：	暂无信息
地址：	650093 云***	国省代码：	云南;53
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	专利数据聚类分析生物医药挖掘信息检索技术专利申请量技术情报技术信息聚类结果评价指标数据样本专利分析专利授权专利信息传统的聚类维度关联分析
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种基于K‑means的生物医药专利聚类分析方法，属于信息检索技术领域。当前，随着时代技术的发展，专利数量急剧增加。专利信息作为技术情报最有效的载体，隐藏了大量的技术信息。传统的专利数据挖掘存在效率低、维度单一、数据样本小、层次不够深入等问题，以无法满足如今对专利数据挖掘的需求。本发明将专利分析中专利申请量、专利授权量、专利成长率、专利有效率4个重要评价指标同时选作为聚类变量进行聚类分析。该方法能够深层次挖掘数据间的关联，较好地对专利数据进行类别划分，使聚类结果更具整体性，以弥补传统专利数据分析的不足。

技术领域

本发明涉及一种基于K-means的生物医药专利聚类分析方法，属于信息检索技术领域。

背景技术

在数据挖掘技术扩展到专利文献挖掘之前，专利信息作为技术情报最有效的载体，隐藏了大量的技术信息。传统的专利数据挖掘存在效率低、维度单一、数据样本小、层次不够深入等问题，以无法满足如今对专利数据挖掘的需求。本发明提出了一种基于层次聚类的生物医药专利聚类分析方法，该方法将专利分析中专利申请量、专利授权量、专利成长率、专利有效率4个重要评价指标同时选作为聚类变量进行聚类分析。该方法能够深层次挖掘数据间的关联，较好地对专利数据进行类别划分，使聚类结果更具整体性，以弥补传统专利数据分析的不足。

发明内容

本发明要解决的技术问题是提供了一种基于K-means的生物医药专利聚类分析方法，该方法能够深层次挖掘数据间的关联，较好地对专利数据进行类别划分，使聚类结果更具整体性。

本发明的技术方案是：一种基于K-means的生物医药专利聚类分析方法，所述方法的具体步骤如下：

Step1、选定专利申请量、专利授权量、专利成长率和专利有效率作为聚类变量；

Step2、K-means聚类；

所述步骤Step1中的聚类变量计算方法为：

Step1.1、专利成长率为当年授权专利量与上一年专利授权量的百分比；

Step1.2、专利有效率为截止当年最后一日的有效专利数量与截止当年最后一日所有授权专利数量的百分比；

所述步骤Step2中K-means聚类具体步骤如下：

Step2.1、选择K个初始中心点作为聚类中心；

采用SSE(sum of the squared errors，误差平方和)的方法确定K的取值，具体算法如下：

其中，c_i是第i个簇，p是c_i中的样本点，m_i是c_i的质心，SSE是所有样本的聚类误差，代表了聚类效果的好坏。