[发明专利]一种大规模开源软件标签层次自动构建方法有效
申请号: | 201510617001.5 | 申请日: | 2015-09-21 |
公开(公告)号: | CN105389327B | 公开(公告)日: | 2019-07-16 |
发明(设计)人: | 王怀民;王涛;尹刚;谷崇明;杨程;史殿习;刘惠;丁博;史佩昌;刘步权;湛云;侯翔;李翔 | 申请(专利权)人: | 中国人民解放军国防科学技术大学 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/25;G06F16/215 |
代理公司: | 北京安博达知识产权代理有限公司 11271 | 代理人: | 徐国文 |
地址: | 410073 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种开源软件标签层次自动化构建方法,包括利用已有的抽取工具将项目标签信息抽取出来,抽取得到的项目标签任意两两之间匹配,形成若干个无向标签对,然后统计出根据所有记录计算出的标签对信息计算出的标签对出现频次,并根据标签频次关系为标签对加上方向,形成<标签对,频次>边;将有向边相互连接起来就可以形成若干个连通图而得到初步构建的标签层次;获取站点已有分类层次,进行边的比较,对已有分类层次进行优化。具有对开源社区中大规模开源资源进行层次化组织,提高开源软件定位准确性和效率的效果。 | ||
搜索关键词: | 一种 大规模 软件 标签 层次 自动 构建 方法 | ||
【主权项】:
1.一种开源软件标签层次自动化构建方法,包括下列步骤:步骤101、利用通用的爬虫技术抓取开源社区的项目信息页面,并利用已有的抽取工具将项目标签信息抽取出来,每一个项目页面可以形成一条字段为<项目名,标签集合>的记录,其中标签集合可以用<标签1><标签2>…<标签n>格式存储,其中n大于等于1,形成一系列项目标签记录,存储到本地数据库A中;步骤102、对本地数据库A中的每一条记录做如下操作:标签集合中的项目标签任意两两之间匹配,形成若干个无向标签对,然后统计出根据所有记录计算出的标签对信息计算出的标签对出现频次,形成<标签对,频次>关系,同时统计出所有标签的出现频次,作为标签广义度度量;步骤103、将<标签对,频次>关系按频次进行降序排列,取前N个关系中的标签对作为层次结构中的边,然后根据标签广义度为这些选中的边加上方向,由广义度大的标签指向广义度小的标签,所述N大于等于1,其决定层次结构的大小;步骤104、形成的若干条有向边是若干个连通图的边表示法,将这些边相互连接起来就可以形成若干个连通图,这样连接形成的图都保留,据此,构建出初步的软件标签分类层次结构;步骤105、根据已有的标签分类层次对初步软件标签分类层次进行优化;步骤106、定期对各大开源社区的项目信息检查更新信息,如果项目标签有更新,则将页面爬取、抽取,更新到本地数据库A中,执行步骤102及后续步骤,如果没有更新,则睡眠,等待下一次检查。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科学技术大学,未经中国人民解放军国防科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510617001.5/,转载请声明来源钻瓜专利网。