[发明专利]平行网页获取方法及装置无效
申请号: | 201310174218.4 | 申请日: | 2013-05-10 |
公开(公告)号: | CN103258032A | 公开(公告)日: | 2013-08-21 |
发明(设计)人: | 刘奇;刘洋;孙茂松 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 西安智大知识产权代理事务所 61215 | 代理人: | 贾玉健 |
地址: | 100084 北京市海淀区1*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 平行 网页 获取 方法 装置 | ||
技术领域
本发明涉及文本信息处理技术领域,特别涉及一种平行网页获取方法及装置。
背景技术
互联网作为一个多语言环境的国际网络,为全世界人们相互沟通提供了巨大方便,但是语言不通仍然对人们有效获取其他语言的信息造成了障碍。随着国际交流的日益深入,为了方便持不同语言的各国人士获取信息,互联网中设立了大量的多语网站,这类网站存在多个语种的网页,同一内容的网页存在多个对应的其他语言的网页。由于这类网站中很多网页内容严格对译,质量优良,所以就成为了双语平行语料的可靠来源。平行语料指的是相互翻译的两种语种的句对集合,比如“I love you”,与“我爱你”就是一对平行句对。平行语料在统计机器翻译和跨语言信息检索等领域是重要的基础性资源。国际机构LDC(Linguistic Data Consortium,语言数据联盟)就提供了大量的平行语料为相关的研究人员使用。
然而现有平行语料的数量和领域仍然无法应对互联网的使用环境。传统的平行语料来源主要分为三种:一、双语国家的法律文书和议会记录;二、宗教类翻译文本;三、文学类翻译文本。这些双语语料质量较高,然而数量有限且领域局限于法律、政治、宗教、文学等有限领域。在适用领域上存在非常大的局限性。在互联网适用环境下,我们迫切需要能够适应互联网这种多领域环境的语料资源。基本的办法是对互联网中存在的平行网站中抓取平行网页,再从平行网页中抽取平行文本,最后进行句子对齐得到平行语料。所谓平行网站,指的是一种多语言的网站,网站中的同一内容存在多个语言的版本,如联合国官方网站、香港政府网站等。所谓平行网页,是指平行网站中的同一内容的不同语种的一对网页,其网页结构也具有相似性。
传统互联网平行网页获取方法,分为两种,一种是使用URL模式的方法,该类方法基本思路为人工观察平行网站中平行网页的URL命名模式,预定义一些模式,如英法语网页模式:“fr”-“en”,中英语网页模式“ch”-“en”,有了这些预定义的模式,获取了平行网站的全站URL之后,就可以利用模式反向找到可能的平行网页对,然而由于这种方法使用人工预定义的有限URL模式,存在发现效率低下和对平行网站中平行网页发现不全的问题;另外一种是利用平行网页HTML结构相似性来实现平行网站中平行网页的递归同步访问,由于平行网页对的网页HTML结构具有相似性,利用页面HTML结构对齐的算法,就可以获得相对应的双语文本和下级候选平行网页链接对,再使用分类器对候选平行网页对进行检验。但这种方法由于使用分类器对页面对齐技术获取下级候选链接对进行一一检查,存在处理了大量候选对但只存在较少真正平行的链接对的问题,另外该技术对一个平行网站的处理结束条件为没有候选平行网页对时结束,但实际上候选网页对将持续膨胀,而其中的处理错误也将累积,导致不得不处理一部分就结束。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种平行网页获取方法和装置,结合上述两种方法的优点,克服两者的缺点,同时使用HTML结构信息和平行网页URL模式进行平行网页的发现。
为了实现上述目的,本发明采用的技术方案是:
一种平行网页获取方法,包括:
使用HTML结构信息实现对平行网站中平行网页的同步递归访问,使用URL模式优化遍历平行网站的路径;
对同步访问的候选平行网页对,使用分类器进行判定,对判定为平行网页的网页对,学习其URL对应的命名模式,使用基于HTML标记序列对齐的技术抽取平行网页对中的双语文本和下级候选网页链接对,利用学习到的URL命名模式构建候选平行网页链接对优先队列;
对是否应该终止平行网页发现进行判定,最终完成对一个平行网站中的平行网页的发现和双语文本的挖掘。
本发明所述平行网页,具体地,是指一对网页结构相同或相似,内容互相翻译的一对网页,网页结构相同或相似,是指网页排版从视觉效果上看具有一致性,同时网页的HTML源文件从树状HTML标记结构上看也具有相似性。
所述使用HTML结构信息实现对平行网站中平行网页的同步递归访问,具体包括:
使用网页HTML标记序列对齐技术,从平行网页中获取对齐HTML结构,从中抽取对齐的下级候选平行网页链接对,将下级候选平行网页链接对放入候选平行网页链接对队列,对一个平行网站,由于中英文首页是一对平行网页,且从首页出发可以遍历全站的网页,因此使用中英文首页作为种子平行网页,利用上述处理方法,实现对平行网站中的平行网页的同步递归访问。
所述HTML标记序列对齐,具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310174218.4/2.html,转载请声明来源钻瓜专利网。