[发明专利]网页标题去噪在审
申请号: | 201610083779.7 | 申请日: | 2016-02-05 |
公开(公告)号: | CN107045513A | 公开(公告)日: | 2017-08-15 |
发明(设计)人: | 王飞;蒋汉平;常智山 | 申请(专利权)人: | 北京迅奥科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100097 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页 标题 | ||
技术领域
提出两种混合的模型来处理标题噪音的技术。
背景技术
互联网信息检索面向的对象为海量网页数据,而其中包含的信息内容也越来越丰富且呈现的形式也越来越多样化,其带有的噪音信息也开始成几何级数増长。大量的噪音信息増加搜索引擎中索引的数量,降低索引的质量,相应増加了用户的查询时间和降低了用户查询到的信息的质量。
目前,直接处理网页标题中的噪声的方法比较少,常用的方法比较简单,通常采用通过建立网页标题噪声停用词表的方法,去除网页标题中常见的噪声信息。但这种方法,一方面对停用词表具有很大的依赖性,随着网页数目几何形式的増长,大量未登录词的出现,会严重降低这种方法的效果,另一方面,直接从标题中扣掉一些停用词,会破坏标题串的连贯性,导致标题信息的不完整,最终会影响用户检索信息的准确性。
发明内容
本发明提出一种基于统计的标题去噪模型。一共有两个部分。第一部分对相同的host下的标题建树,统计当前节点月当前节点的子节点之间的分配比,通过设定的阀值递归的选择满足条件的路,根据这条路得到同一个host下所有标题重复度最高的公共窜,这个公共窜被视为噪音,将其从该host下的所有标题中去掉,得到去噪后的完整标题;第二部分是,对相同的host下的标题,先提取属于范围内的特殊字符集,从提取的特殊字符集中任取一个特殊字符作为切分标识符,对所有的标题惊醒切分,统计经这个特殊字符切分后的词串的词频,通过预设的阀值,选取词频超过阀值的词串,得到这个特殊字符对饮的满足条件的词串集合中所有词串长度的综合,跳出长度综合最大的词串集合,这个词串集合中的词被视为噪音,将其从该host下所有的标题中去掉,得到去噪后的标题。
具体实施方式
1.第一部分:
(a)首先对输入的网页进行解析,提取url中的host和网页中的标题。
(b)提取同一个host下的所有的标题,假设标题总数为n,并对这些标题建树。建树方式分为正向和反向两种。
i.反向建树,记为TreeA
A.首先建立一个根节点root1
B.取第1个标题title,对进行分词得到一个词串tWi,其长度为n1,取最后一个词tw1[n1],作为root1的第一个孩子节点,tw1[i]作为tw1[i+1]的孩子节点,这里0<i<n1-1.
C.取第k个标题titlek,对titlek进行分词得到一个词串twk,其长度为nk,取最后一个词twk[nk],与root1的所有孩子节点进行比较,如果不同,则建立一个新的root1的孩子节点,并将twk[i]作为twk[i+1]的孩子节点,这里0<i<nk。如果twk[nk]等于root1的某个孩子节点twj[ni],那么取twj[nj]的孩子节点与twk[nk-1]进行比较,如果不同,则建立twj[nj]的一个新的孩子节点,并将twk[i]作为twk[i+1]的孩子节点,显然这里twj[nj]=twk[nk],0<i<nk-1,如果存在twj[nj]的某个孩子节点与twk[nk-1]相同,则比较这个孩子节点的孩子节点与twk[nk-2],依此类推,直到最后一个词。
ii.正向建树,记为TreeB
A.首先建立一个根节点root2
B.接下来建树的方式同反向建树一个原理,区别在于从第一词窜开始树
(c)分别解析正向建立的树,反向建立的树。由于解析正向树的方法和解析反向树的方法相似,所以下面介绍解析反向树的逻辑
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京迅奥科技有限公司,未经北京迅奥科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610083779.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据交换方法及系统
- 下一篇:一种应用内容收藏方法及装置