[发明专利]利用网页结构抽取双语词条的方法及设备有效
申请号: | 200910204804.2 | 申请日: | 2009-10-14 |
公开(公告)号: | CN102043808A | 公开(公告)日: | 2011-05-04 |
发明(设计)人: | 刘秋阁;方高林 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京鑫媛睿博知识产权代理有限公司 11297 | 代理人: | 龚家骅 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 利用 网页 结构 抽取 双语 词条 方法 设备 | ||
技术领域
本发明涉及通信领域,尤其涉及一种利用网页结构抽取双语词条的方法及设备。
背景技术
电子辞典是一种将传统的印刷词典转成数码方式、进行快速查询的数字学习工具,电脑辞典以轻便易携、查询快捷、功能丰富等特点,在人们学习和生活中的使用越来越广泛。但是,现有的双语电子词典中的词典普遍依赖于人工输入和编辑,工作量巨大,效率低,且收录的词条有限,同时缺乏时效性。
为了解决这个问题,近年来人们开始探索如何从网络中自动提取双语词典。
互联网上存在的各种形式的双语文档可以归结为三类:
段落对照型:这种形式的文档通常由一段源语文本和对应的一段目标语文本交错组成,这种类型的文档大都是双语平行的文档;
表格型:这种文档中通常由很多行组成,每一行包含两个双语对照的词条,这种文档多出现在一些双语术语表类的文件中;
纯文本型,这种文档一般由互相夹杂的双语文本组成,没有什么规律。
对于第一种段落对照型双语文档,现有技术中主要是利用源语词与目标词之间的共现频率、出现位置和长度等信息决定双语词条间互为翻译的概率。其中,从平行语料中抽取双语词典的研究在国外和国内都得到了广泛研究,有不少可以借鉴的方法。从非平行语料抽取双语词典与从平行语料中抽取双语词典不同,此时无法直接利用词之间的上述统计信息,因为非平行语料中不存在互相对照的单元,因此也就不存在完全可信的共现频率等关联信息。从非平行语料中抽取双语词条大致存在:“上下文异质性”方法、词语关系矩阵法、部分平行文档处理法、上下文特征距离法等几种方法。
这类技术需要从互联网中搜集到平行的语料,而且利用统计、语言学的技术进行双语词条的抽取效率不高、容易引进噪音。
目前在网络上存在着很多第二种表格型双语文档和第三种纯文本型双语文档词对,这些词对具有一些特征,例如:行型双语词对,即在页面上成篇地列出,左边为英语或汉语,右边为其互译的汉语或英语;括号型双语词对,即利用括号表明互译关系:括号内的英文为括号外紧邻中文的翻译。这些词条数量多、出现频率高、词条质量高、模式固定,因此易于抽取和处理。
现有的技术大都通过编写程序,根据这些词对分布的特征,辅以本地词典的校验,将这样的词条从互联网中抽取出来。这些技术能够自动地从网页中抽取双语词条,但能够处理的格式比较简单,因此抽取能力比较有限。
发明内容
本发明提供了一种利用网页结构抽取双语词条的方法和设备,以实现对网页中双语词条的高效抽取。
本发明提供一种利用网页结构抽取双语词条的方法,包括:
根据预设的种子词条在搜索引擎中搜索相关网页并保存;
提取所述种子词条在所述网页中出现的格式,并在所述网页中提取与所述种子词条具有相同格式的其他双语词条。
所述根据预设的种子词条在搜索引擎中搜索相关网页并保存包括:
利用预设的双语词表作为初始的种子词列表,将其中的种子词条发送到搜索引擎,获取搜索引擎搜索的网页并保存所述网页相应的链接;
根据所述保存的链接下载文档,保存为本地HTML文件。
所述保存所述网页相应的链接包括:对重复的链接进行去重整理,保存去重整理后的链接;
所述保存为本地HTML文件之后,还包括:
保存种子词与对应下载文档之间的对应关系。
提取所述种子词条在所述网页中出现的格式,并在所述网页中提取与所述种子词条具有相同格式的其他双语词条包括:
根据所述网页建立相应的标签树;
遍历所述标签树,构造种子节点对数组,获取所述种子节点对数组中的每一种子节点对的最近公共父节点;所述种子节点对包括所述种子词条中的第一种子词条所在节点与第二种子词条所在节点,所述第一种子词条与第二种子词条分别为不同语言的种子词条;
寻找与所述最近公共父节点平行的其他节点,获取所述其他节点的孩子列表;
遍历所述孩子列表中的每一节点,提取其中的双语词条并存储。
所述根据所述网页建立相应的标签树包括:
解析所述HTML文件,将所述HTML文件转化为相应的树结构;所述树结构中以<HTML>标签对应树的根节点,其他标签及文本作为树的子节点按照在所述HTML文件中的嵌套关系排列;
所述树结构包括不同子树的平行结构和相同子树的平行结构。
所述构造种子节点对数组包括:
将所述标签树中所述种子词条中的第一种子词条所在节点与距离本节点距离最近的第二种子词条所在节点作为种子词节点对,存储在所述种子节点对数组中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910204804.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:辅助制冷系统及其操作方法
- 下一篇:摄影装置、图像处理装置及图像处理方法