[发明专利]一种网页多重属性的标记方法及其实现在审

专利信息
申请号: 201410176809.X 申请日: 2014-04-30
公开(公告)号: CN104679804A 公开(公告)日: 2015-06-03
发明(设计)人: 王建平 申请(专利权)人: 宁波优策信息技术有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 代理人:
地址: 315100 浙江省宁波市*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 网页 多重 属性 标记 方法 及其 实现
【说明书】:

技术领域

本发明提供了一种对具有多重信息属性的网页进行标记并实现的方法,属于计算机技术领域中的信息处理。具体来说,在实际业务处理中对互联网(移动互联网)的网页信息处理时,往往需要从多个层次(即多个属性类别)、多个维度(某个属性类别又有多个属性值)对网页进行信息属性的标记,并基于网页的信息属性集合,实现搜索引擎中信息的个性搜索、信息推送中的信息精准推送、信息分类中的信息准确分类、信息汇聚中的专题聚类。为此,本发明专利提出了网页的多重属性标记方法,并通过组合应用直接的网页属性标记、基于关键词库的网页属性标记、以及关键词与规则库相结合进行网页属性标记、使用分类器进行网页属性标记等多种方法,能够有效地标注出网页的多重信息属性,从而在实际应用中可方便、高效地对网页属性信息进行标记、提取与应用。

背景技术

随着网络的普及,网页成为最普遍的信息载体,人们通过搜索或直接点击网站中的网页获取自己所需要的知识与信息。在使用人工进行信息处理范畴之外,在以搜索引擎、信息推送和信息分类为基础功能的实际业务应用中,通常需要通过抓取分散在不同网站中的网页并对其进行分类或聚类等自动信息处理。在对网页进行分类或聚类等业务处理时,实际应用需要从多个层次、多个维度着手,这种情况下,网页信息属性就具有多重特征。在现有的网页信息处理方法中,往往从网页的某个属性着手,缺乏从整体角度综合处理网页各类信息属性的方法,能够把网页属性重复、高效地应用到整个业务处理过程;同时,现有网页属性标记后的信息分类、特别是把网页归类到多个类别时,仍然存在效率不高、分类不准确的问题。我们提供的方法,在信息前期进行处理时对网页信息属性标记进行多重标识,通过组合网页的属性集,可以高效地、灵活地、准确实现信息分类,该发明可以广泛应用到搜索引擎、信息推送、信息分类、信息个性化展示中。

发明内容

为解决上述技术缺陷,本发明基于实际业务需求,需要解决如何对一个具体网页设置出多重信息属性并赋予信息属性值,从而提供一种高效、准确、可扩展、可复用的网页多重信息属性标注方法。

在实际信息处理业务中,一个网页属性(记为符号P)常常是具有多个属性类别(记为符号A)的向量。记为:

                                                  

P为网页信息属性矩阵,Ai(i=1…n)代表第i个属性类别,其属性值通常也有多个,即Ai也是一个向量。由于网页每个属性类别的具体属性个数不同,我们定义网页属性类别的属性域为V,即

    V = (v1,v2,…vn) ,其中,vi对应第i个属性类别的取值(即属性的个数),,其值可以为任意自然数,R为自然数。

则Ai可表示为:

Ai = (ai,1,ai,2,…ai,vi

因此,一个网页的多重属性可以表示如下:

P为数值为0、1组成的矩阵,即ai,vi取值只能为0或1。属性数值(ai,vi)为0时,表示该网页在i个属性类别中、第vi个属性不符合,该取值记为0;而当属性数值(ai,vi)为1时,表示该网页在i个属性类别中、第vi个属性符合,该取值记为1。

需要说明,网页可以有多个不同的属性类别,某个属性类别的取值往往可以是一个,而更多的情况可能是多个。比如说,对网页进行分类时,网页往往不只属于某一个类,可能同时属于多个类别,因此,针对该类别进行网页属性赋值时,其对应的属性行向量中可以在一个位置、也可以在多个位置出现取值为1的情况。

一种网页多重属性的标记方法,具体步骤阐述如下:

1、处理抓取的网页数据与信息,确定信息属性类别和某个类别的属性域,生成网页属性向量;

2、针对实际业务需求,设置属性值向量并对属性值向量赋值(0或者1),具体而言,即根据网页属性对属性值的要求,通过直接赋值或技术方案对属性值进行赋值,形成网页信息属性矩阵。在本发明中,针对各类属性赋值状况的不同,除了利用分类器、关键词匹配等技术方法对非唯一的属性值进行赋值外,特别利用了规则与关键词相结合的方法进行属性值赋值;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宁波优策信息技术有限公司;,未经宁波优策信息技术有限公司;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410176809.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top