[发明专利]基于网站首页内容的领域信息收集和关联方法有效

专利信息
申请号: 201610844199.5 申请日: 2016-09-23
公开(公告)号: CN106528595B 公开(公告)日: 2019-08-06
发明(设计)人: 谢能付;郝心宁;孙巍;张学福;姜丽华 申请(专利权)人: 中国农业科学院农业信息研究所
主分类号: G06F16/951 分类号: G06F16/951;G06F16/36;G06F16/35
代理公司: 暂无信息 代理人: 暂无信息
地址: 100081 北京市海*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明属于互联网技术领域,具体说,涉及一种基于网站首页内容的领域信息收集和关联方法,包括:基于领域概念空间,进行网站首页内容的网站信息领域判别,进而完成领域信息收集;基于领域概念空间,对收集的页面内容进行领域信息分类,进而完成领域信息关联。本发明采用概念空间形成领域概念描述,基于网页首页信息判别进行领域信息收集,不同网站节点以概念空间为基础组成关联网络,能够使用户快速、准确定位到所需要的领域信息簇。
搜索关键词: 基于 网站 首页 内容 领域 信息 收集 关联 方法
【主权项】:
1.一种基于网站首页内容的领域信息收集和关联方法,其特征在于,包括:基于领域概念空间,进行网站首页内容的网站信息领域判别,进而完成领域信息收集,具体包括:1)根据领域特点,构建领域概念空间,并将网站中的页面信息作为概念的实例;2)定义领域网站的URI种子集合;3)根据URI种子集合下载网站首页,当网页内容小于10k时,提取首页中的二级页面,作为首页内容;4)对网站首页的内容进行领域性判断;5)以属于所述领域的所述首页为主线,下载层次深度小于5的所有网页信息,并根据页面特点将所述网页信息区分为栏目链接页面和内容页面,保存在数据库中;基于领域概念空间,对收集的页面内容进行领域信息分类,进而完成领域信息关联,具体包括:(1)提取数据库的内容页面,并把所述页面作为概念空间中的实例,采用分词算法提取所有的词语,将领域词语组成所述实例的内涵描述集,计算领域词的语词频大小,并提取前8‑15个词频较大的领域词语;其中,提取的所述词语包括题目词语和内容描述词语,所述题目词语的权重为5‑8,所述内容描述词语的权重为2;(2)采用SVM算法构建多标签实例归类模型,根据实例提取的词语和权重构成所述实例的向量空间,基于多标签实例归类模型计算其所属每个类别的概率P,当P>1/(n‑1)时,将所述实例归结到相应类别中,并将所述实例保存到知识库;同时,将类标识保存至所述实例中,所述类标识具有唯一标识ID号;其中,归属多个类的实例单独用一张映射表来关联;(3)获取实例的关系集合,包括:对实例i进行扫描,找到实例i所属概念C,根据概念C获取关系集合R;(4)获取关系实例,包括:基于关系集合R,对其中一个关系r,在对应约束概念中所有实例进行扫描,对于已具有关系的实例,当其实例对应实例i所属概念的实例时,对所述实例进行排除,根据每个实例标题所构成的专业词语与实例i标题进行相似性比较;其中,相似性比较采用汉明距离,当距离大于预设阈值时,将所述实例归于实例i的关系r中;(5)获取关联实例,包括:基于实例i的关系对象集合o,对关系对象集合o的所有实例,采用K‑mean聚类算法进行聚类,其中,聚类的类别个数为对象集合o的数目除以3得到的整数N,如果整数N等于1,将关系对象集合o中的所有实例关联到关系r中,如果N大于1,则将实例数量最大的类别中所有实例关联到关系r中;(6)对关系集合R的所有关系重复步骤(4)、(5),直到实例i关系计算完成。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国农业科学院农业信息研究所,未经中国农业科学院农业信息研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610844199.5/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top