[发明专利]基于网站首页内容的领域信息收集和关联方法有效
申请号: | 201610844199.5 | 申请日: | 2016-09-23 |
公开(公告)号: | CN106528595B | 公开(公告)日: | 2019-08-06 |
发明(设计)人: | 谢能付;郝心宁;孙巍;张学福;姜丽华 | 申请(专利权)人: | 中国农业科学院农业信息研究所 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/36;G06F16/35 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100081 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明属于互联网技术领域,具体说,涉及一种基于网站首页内容的领域信息收集和关联方法,包括:基于领域概念空间,进行网站首页内容的网站信息领域判别,进而完成领域信息收集;基于领域概念空间,对收集的页面内容进行领域信息分类,进而完成领域信息关联。本发明采用概念空间形成领域概念描述,基于网页首页信息判别进行领域信息收集,不同网站节点以概念空间为基础组成关联网络,能够使用户快速、准确定位到所需要的领域信息簇。 | ||
搜索关键词: | 基于 网站 首页 内容 领域 信息 收集 关联 方法 | ||
【主权项】:
1.一种基于网站首页内容的领域信息收集和关联方法,其特征在于,包括:基于领域概念空间,进行网站首页内容的网站信息领域判别,进而完成领域信息收集,具体包括:1)根据领域特点,构建领域概念空间,并将网站中的页面信息作为概念的实例;2)定义领域网站的URI种子集合;3)根据URI种子集合下载网站首页,当网页内容小于10k时,提取首页中的二级页面,作为首页内容;4)对网站首页的内容进行领域性判断;5)以属于所述领域的所述首页为主线,下载层次深度小于5的所有网页信息,并根据页面特点将所述网页信息区分为栏目链接页面和内容页面,保存在数据库中;基于领域概念空间,对收集的页面内容进行领域信息分类,进而完成领域信息关联,具体包括:(1)提取数据库的内容页面,并把所述页面作为概念空间中的实例,采用分词算法提取所有的词语,将领域词语组成所述实例的内涵描述集,计算领域词的语词频大小,并提取前8‑15个词频较大的领域词语;其中,提取的所述词语包括题目词语和内容描述词语,所述题目词语的权重为5‑8,所述内容描述词语的权重为2;(2)采用SVM算法构建多标签实例归类模型,根据实例提取的词语和权重构成所述实例的向量空间,基于多标签实例归类模型计算其所属每个类别的概率P,当P>1/(n‑1)时,将所述实例归结到相应类别中,并将所述实例保存到知识库;同时,将类标识保存至所述实例中,所述类标识具有唯一标识ID号;其中,归属多个类的实例单独用一张映射表来关联;(3)获取实例的关系集合,包括:对实例i进行扫描,找到实例i所属概念C,根据概念C获取关系集合R;(4)获取关系实例,包括:基于关系集合R,对其中一个关系r,在对应约束概念中所有实例进行扫描,对于已具有关系的实例,当其实例对应实例i所属概念的实例时,对所述实例进行排除,根据每个实例标题所构成的专业词语与实例i标题进行相似性比较;其中,相似性比较采用汉明距离,当距离大于预设阈值时,将所述实例归于实例i的关系r中;(5)获取关联实例,包括:基于实例i的关系对象集合o,对关系对象集合o的所有实例,采用K‑mean聚类算法进行聚类,其中,聚类的类别个数为对象集合o的数目除以3得到的整数N,如果整数N等于1,将关系对象集合o中的所有实例关联到关系r中,如果N大于1,则将实例数量最大的类别中所有实例关联到关系r中;(6)对关系集合R的所有关系重复步骤(4)、(5),直到实例i关系计算完成。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国农业科学院农业信息研究所,未经中国农业科学院农业信息研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610844199.5/,转载请声明来源钻瓜专利网。
- 上一篇:电表定位方法及系统
- 下一篇:一种基于动态端口切换的数据传输方法和系统
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法