[发明专利]网页标题去噪在审
申请号: | 201610083779.7 | 申请日: | 2016-02-05 |
公开(公告)号: | CN107045513A | 公开(公告)日: | 2017-08-15 |
发明(设计)人: | 王飞;蒋汉平;常智山 | 申请(专利权)人: | 北京迅奥科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100097 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 网页标题去噪,弥补了对整个网页去噪中无法取出剩余下的模块中的噪声情况,避免可直接处理网页标题中采用的停用词表去除噪声无法应对未登录词的情况,改善网页的质量,提升索引的质量,加快了检索的速度和提高检索的质量。 | ||
搜索关键词: | 网页 标题 | ||
【主权项】:
一种基于两种混合的模型来处理标题噪音的模型。其特征是,第一个模型,先提取网页中URL和标题,通过解析URL将相同host下的标题汇总,然后对所有的标题分词建树,借助树结构对标题特征进行分析,最后得到噪声窜,将其从标题中删除。第二个模型利用特殊字符,先对相同host下的标题分词,然后选取满足一定条件的词串,通过选出最大长度的词串集合,选出噪声词串,将其从标题中删除。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京迅奥科技有限公司,未经北京迅奥科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610083779.7/,转载请声明来源钻瓜专利网。
- 上一篇:一种数据交换方法及系统
- 下一篇:一种应用内容收藏方法及装置