[发明专利]网页标题去噪在审

申请号：	201610083779.7	申请日：	2016-02-05
公开（公告）号：	CN107045513A	公开（公告）日：	2017-08-15
发明（设计）人：	王飞;蒋汉平;常智山	申请（专利权）人：	北京迅奥科技有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	暂无信息	代理人：	暂无信息
地址：	100097 北京市海淀***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	网页标题
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

提出两种混合的模型来处理标题噪音的技术。

背景技术

互联网信息检索面向的对象为海量网页数据，而其中包含的信息内容也越来越丰富且呈现的形式也越来越多样化，其带有的噪音信息也开始成几何级数増长。大量的噪音信息増加搜索引擎中索引的数量，降低索引的质量，相应増加了用户的查询时间和降低了用户查询到的信息的质量。

目前，直接处理网页标题中的噪声的方法比较少，常用的方法比较简单，通常采用通过建立网页标题噪声停用词表的方法，去除网页标题中常见的噪声信息。但这种方法，一方面对停用词表具有很大的依赖性，随着网页数目几何形式的増长，大量未登录词的出现，会严重降低这种方法的效果，另一方面，直接从标题中扣掉一些停用词，会破坏标题串的连贯性，导致标题信息的不完整，最终会影响用户检索信息的准确性。

发明内容

本发明提出一种基于统计的标题去噪模型。一共有两个部分。第一部分对相同的host下的标题建树，统计当前节点月当前节点的子节点之间的分配比，通过设定的阀值递归的选择满足条件的路，根据这条路得到同一个host下所有标题重复度最高的公共窜，这个公共窜被视为噪音，将其从该host下的所有标题中去掉，得到去噪后的完整标题；第二部分是，对相同的host下的标题，先提取属于范围内的特殊字符集，从提取的特殊字符集中任取一个特殊字符作为切分标识符，对所有的标题惊醒切分，统计经这个特殊字符切分后的词串的词频，通过预设的阀值，选取词频超过阀值的词串，得到这个特殊字符对饮的满足条件的词串集合中所有词串长度的综合，跳出长度综合最大的词串集合，这个词串集合中的词被视为噪音，将其从该host下所有的标题中去掉，得到去噪后的标题。

具体实施方式

1.第一部分：

(a)首先对输入的网页进行解析，提取url中的host和网页中的标题。

(b)提取同一个host下的所有的标题，假设标题总数为n，并对这些标题建树。建树方式分为正向和反向两种。

i.反向建树，记为TreeA

A.首先建立一个根节点root₁

B.取第1个标题title，对进行分词得到一个词串tWi，其长度为n₁，取最后一个词tw₁[n₁]，作为root₁的第一个孩子节点，tw₁[i]作为tw₁[i+1]的孩子节点，这里0＜i＜n₁-1.

C.取第k个标题title_k，对title_k进行分词得到一个词串tw_k，其长度为n_k，取最后一个词tw_k[n_k]，与root₁的所有孩子节点进行比较，如果不同，则建立一个新的root₁的孩子节点，并将tw_k[i]作为tw_k[i+1]的孩子节点，这里0＜i＜n_k。如果tw_k[n_k]等于root₁的某个孩子节点tw_j[n_i]，那么取tw_j[n_j]的孩子节点与tw_k[n_k-1]进行比较，如果不同，则建立tw_j[n_j]的一个新的孩子节点，并将tw_k[i]作为tw_k[i+1]的孩子节点，显然这里twj[nj]＝tw_k[n_k]，0＜i＜n_k-1，如果存在twj[nj]的某个孩子节点与tw_k[n_k-1]相同，则比较这个孩子节点的孩子节点与tw_k[n_k-2]，依此类推，直到最后一个词。

ii.正向建树，记为TreeB

A.首先建立一个根节点root₂

B.接下来建树的方式同反向建树一个原理，区别在于从第一词窜开始树

(c)分别解析正向建立的树，反向建立的树。由于解析正向树的方法和解析反向树的方法相似，所以下面介绍解析反向树的逻辑

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京迅奥科技有限公司，未经北京迅奥科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201610083779.7/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]网页标题去噪在审

专利文献下载