[发明专利]利用网页结构抽取双语词条的方法及设备有效
申请号: | 200910204804.2 | 申请日: | 2009-10-14 |
公开(公告)号: | CN102043808A | 公开(公告)日: | 2011-05-04 |
发明(设计)人: | 刘秋阁;方高林 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京鑫媛睿博知识产权代理有限公司 11297 | 代理人: | 龚家骅 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 利用 网页 结构 抽取 双语 词条 方法 设备 | ||
1.一种利用网页结构抽取双语词条的方法,其特征在于,包括:
根据预设的种子词条在搜索引擎中搜索相关网页并保存;
提取所述种子词条在所述网页中出现的格式,并在所述网页中提取与所述种子词条具有相同格式的其他双语词条。
2.如权利要求1所述的方法,其特征在于,所述根据预设的种子词条在搜索引擎中搜索相关网页并保存包括:
利用预设的双语词表作为初始的种子词列表,将其中的种子词条发送到搜索引擎,获取搜索引擎搜索的网页并保存所述网页相应的链接;
根据所述保存的链接下载文档,保存为本地HTML文件。
3.如权利要求2所述的方法,其特征在于,
所述保存所述网页相应的链接包括:对重复的链接进行去重整理,保存去重整理后的链接;
所述保存为本地HTML文件之后,还包括:
保存种子词与对应下载文档之间的对应关系。
4.如权利要求1所述的方法,其特征在于,提取所述种子词条在所述网页中出现的格式,并在所述网页中提取与所述种子词条具有相同格式的其他双语词条包括:
根据所述网页建立相应的标签树;
遍历所述标签树,构造种子节点对数组,获取所述种子节点对数组中的每一种子节点对的最近公共父节点;所述种子节点对包括所述种子词条中的第一种子词条所在节点与第二种子词条所在节点,所述第一种子词条与第二种子词条分别为不同语言的种子词条;
寻找与所述最近公共父节点平行的其他节点,获取所述其他节点的孩子列表;
遍历所述孩子列表中的每一节点,提取其中的双语词条并存储。
5.如权利要求4所述的方法,其特征在于,所述根据所述网页建立相应的标签树包括:
解析所述HTML文件,将所述HTML文件转化为相应的树结构;所述树结构中以<HTML>标签对应树的根节点,其他标签及文本作为树的子节点按照在所述HTML文件中的嵌套关系排列;
所述树结构包括不同子树的平行结构和相同子树的平行结构。
6.如权利要求4所述的方法,其特征在于,所述构造种子节点对数组包括:
将所述标签树中所述种子词条中的第一种子词条所在节点与距离本节点距离最近的第二种子词条所在节点作为种子词节点对,存储在所述种子节点对数组中。
7.如权利要求4所述的方法,其特征在于,所述寻找与所述最近公共父节点平行的其他节点之前,还包括:
提取所述第一种子词条与所述第二种子词条在所属节点中出现的位置并存储,建立所述第一种子词条与所述第二种子词条位置的对应关系;
判断所述第一种子词条与所述第二种子词条位置的对应关系是否满足预设的条件,满足时,执行寻找与所述最近公共父节点平行的其他节点的步骤。
8.如权利要求4所述的方法,其特征在于,所述遍历所述孩子列表中的每一节点,提取其中的双语词条并存储包括:
当所述节点为非文本节点时,处理下一个孩子节点;
判断所述文本节点的长度是否小于种子词条总长度的预设倍数;否则,处理下一个孩子节点;
判断所述文本节点是否匹配双语模式;如果匹配,则提取其中的第一语言部分与第二语言部分;
判断所述第一语言部分与第二语言部分是否包含需要的字符,如果包含,则将所述第一语言部分与第二语言部分作为一对候选双语词条保存,同时保存其在网页中出现的位置信息,处理下一孩子节点;
当所有孩子节点处理完毕以后,若满足作为候选双语词条的节点数目小于预设数目,清空所述其他节点下搜集的所有候选双语词条,处理其他节点。
9.一种利用网页结构抽取双语词条的设备,其特征在于,包括:
网页搜索单元,用于根据预设的种子词条在搜索引擎中搜索相关网页并保存;
词条提取单元,用于提取所述种子词条在所述网页中出现的格式,并在所述网页中提取与所述种子词条具有相同格式的其他双语词条。
10.如权利要求9所述的设备,其特征在于,所述网页搜索单元具体用于:
利用预设的双语词表作为初始的种子词列表,将其中的种子词条发送到搜索引擎,获取搜索引擎搜索的网页并保存所述网页相应的链接;
根据所述保存的链接下载文档,保存为本地HTML文件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910204804.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:辅助制冷系统及其操作方法
- 下一篇:摄影装置、图像处理装置及图像处理方法