[发明专利]平行网页获取方法及装置无效

申请号：	201310174218.4	申请日：	2013-05-10
公开（公告）号：	CN103258032A	公开（公告）日：	2013-08-21
发明（设计）人：	刘奇;刘洋;孙茂松	申请（专利权）人：	清华大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	西安智大知识产权代理事务所 61215	代理人：	贾玉健
地址：	100084 北京市海淀区1***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	一种平行网页获取方法及装置，属于文本信息处理领域，所述方法包括：使用HTML结构信息实现对平行网站中平行网页的同步递归访问，使用URL命名模式优化遍历平行网站的路径，对候选平行网页，使用分类器进行判定，对判定为平行网页的网页对，学习其URL对应的命名模式，抽取平行网页对中的双语文本和指向的下级候选平行网页链接对，利用学习到的URL模式构建候选平行网页链接对优先队列；对是否应该终止平行网页发现进行判定，最终完成对一个平行网站中的平行网页的发现和双语文本的挖掘，本发明相应地提供了获取装置，本发明结合URL命名模式及HTML结构信息，实现了高效准确的平行网页发现和获取，同时提高了处理速度，减少了带宽消耗。
搜索关键词：	平行网页获取方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种平行网页获取方法，其特征在于，包括：使用HTML结构信息实现对平行网站中平行网页的同步递归访问，使用URL模式优化遍历平行网站的路径；对同步访问的候选平行网页对，使用分类器进行判定，对判定为平行网页的网页对，学习其URL对应的命名模式，使用基于HTML标记序列对齐的技术抽取平行网页对中的双语文本和下级候选网页链接对，利用学习到的URL命名模式构建候选平行网页链接对优先队列；对是否应该终止平行网页发现进行判定，最终完成对一个平行网站中的平行网页的发现和双语文本的挖掘。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于清华大学，未经清华大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201310174218.4/，转载请声明来源钻瓜专利网。

上一篇：Fe基非晶粉末及其制备线圈内嵌式一体成型电感的方法
下一篇：利用手机红外遥控多个设备的系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]平行网页获取方法及装置无效

专利文献下载