[发明专利]一种自动生成网页的方法及装置有效
申请号: | 201110259321.X | 申请日: | 2011-09-02 |
公开(公告)号: | CN102982030A | 公开(公告)日: | 2013-03-20 |
发明(设计)人: | 蓝翔;沈文竹;吴甜;吴华 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京鸿德海业知识产权代理事务所(普通合伙) 11412 | 代理人: | 袁媛 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自动 生成 网页 方法 装置 | ||
1.一种自动生成网页的方法,其特征在于,所述方法包括:
根据第一语言页面生成第一语言检索词;
将所述第一语言检索词翻译成第二语言检索词,使用所述第二语言检索词在第二语言页面集合中进行检索,从各个第二语言检索结果页面中提取第二语言候选页面;
针对所述第一语言页面中的第一语言句子,从所述第二语言候选页面中提取与该第一语言句子匹配的第二语言句子,并利用提取的第二语言句子生成最终网页。
2.根据权利要求1所述的方法,其特征在于,根据第一语言页面生成第一语言检索词的步骤包括:将第一语言页面的标题与所述第一语言页面上各段落的标题名组合形成第一语言检索词;或者,将第一语言页面的标题与所述第一语言页面上为半结构化数据设置的数据标签名称组合形成第一语言检索词;或者,将第一语言页面中出现频率最高的N个词或出现频率最低的N个词作为第一语言检索词;或者,将第一语言页面中词频-反文档频率值最高的N个词或词频-反文档频率值最低的N个词作为第一语言检索词;或者,将第一语言页面中的命名实体作为第一语言检索词,其中N为正整数。
3.根据权利要求1所述的方法,其特征在于,从各个第二语言检索结果页面中提取第二语言候选页面的步骤包括:
将所述第一语言页面的标题翻译为第二语言标题;
从各个第二语言检索结果页面中选择标题与所述第二语言标题匹配的第二语言检索结果页面作为第二语言候选页面。
4.根据权利要求1所述的方法,其特征在于,从各个第二语言检索结果页面中提取第二语言候选页面的步骤包括:
将所述第一语言页面的标题翻译为第二语言标题;
分别统计所述第二语言标题在各个第二语言检索结果页面中出现的次数,将所述第二语言标题出现次数从大到小排列在前N位的第二语言检索结果页面确定为第二语言候选页面,其中N为正整数。
5.根据权利要求1所述的方法,其特征在于,从各个第二语言检索结果页面中提取第二语言候选页面的步骤包括:
将所述第一语言页面的标题翻译为第二语言标题;
将所述第二语言标题作为搜索词进行搜索,得到搜索结果,并确定各个第二语言检索结果页面在所述搜索结果中的排名,将排名位于前N位的第二语言检索结果页面确定为第二语言候选页面,其中N为正整数。
6.根据权利要求1所述的方法,其特征在于,从各个第二语言检索结果页面中提取第二语言候选页面的步骤包括:
将所述第一语言页面翻译为第二语言对比页面;
分别统计各个第二语言检索结果页面包含的与所述第二语言对比页面相同的词语的数量,并将包含的与所述第二语言对比页面相同的词语的数量从大到小排列在前N位的第二语言检索结果页面确定为第二语言候选页面,或者将包含的与所述第二语言对比页面相同的词语的数量占自身页面所有词语的数量的比例从大到小排列在前N位的第二语言检索结果页面确定为第二语言候选页面,其中N为正整数。
7.根据权利要求6所述的方法,其特征在于,在统计各个第二语言检索结果页面包含的与所述第二语言对比页面相同的词语的数量之前进一步包括对所述第二语言对比页面和各个第二语言检索结果页面进行预处理,所述预处理包括分词、词形还原或去除停用词。
8.根据权利要求1所述的方法,其特征在于,从各个第二语言检索结果页面中提取第二语言候选页面的步骤包括:
分别计算各个第二语言检索结果页面与所述第一语言页面的主题相似度,将主题相似度排名位于前N位的第二语言检索结果页面确定为第二语言候选页面,其中N为正整数。
9.根据权利要求1所述的方法,其特征在于,针对所述第一语言页面中的第一语言句子,从所述第二语言候选页面中提取与该第一语言句子匹配的第二语言句子的步骤包括:
针对所述第一语言页面中的每个第一语言句子,分别计算该第一语言句子与所述第二语言候选页面中的各个第二语言句子之间的相似度,并判断该第一语言句子与各个第二语言句子之间的相似度中的最大值是否大于设定阈值,如果是,则将该最大值对应的第二语言句子确定为与该第一语言句子匹配的第二语言句子,其中该第一语言句子与各个第二语言句子之间的相似度由该第一语言句子中的各个可译词的权重之和决定,所述可译词是在对应的第二语言句子中存在相应翻译词的词语。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110259321.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:涂料组成物及其应用
- 下一篇:一种基于MDPCM的集成电路高速数字接口模块