[发明专利]页面的融合方法、装置、存储介质及电子装置有效
申请号: | 201810456491.9 | 申请日: | 2018-05-14 |
公开(公告)号: | CN110162356B | 公开(公告)日: | 2021-09-28 |
发明(设计)人: | 高航 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F9/451 | 分类号: | G06F9/451 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 江舟;周婷婷 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 页面 融合 方法 装置 存储 介质 电子 | ||
本发明公开了一种页面的融合方法、装置、存储介质及电子装置。其中,该方法包括:从待融合的第一页面中提取第一关键词,以及从待融合的第二页面中提取第二关键词;从第一关键词中提取第一权重满足第一目标条件的第一目标关键词,并从第二关键词中提取第二权重满足第一目标条件的第二目标关键词;根据第一目标关键词和第二目标关键词确定第一页面和第二页面的目标页面相似度;在目标页面相似度满足第二目标条件的情况下,将第一页面和第二页面融合。本发明解决了相关技术中对页面进行融合时融合效率较低的技术问题。
技术领域
本发明涉及计算机领域,具体而言,涉及一种页面的融合方法、装置、存储介质及电子装置。
背景技术
由于互联网页面是用户编辑而成,即用户原创内容(User Generated Content,简称为UGC)方式。所以,对于站点下相同实体的页面就有可能存在冗余页面。例如:百科页面中某明星的信息被用户A编辑形成了一个页面,同时又被用户B编辑形成了另一个页面。由于构建知识库时,需要整合页面信息,以丰富知识库实体信息,所以就需要进行页面融合。现有的页面融合方案采用的是关键字段的完全匹配方式判断页面是否应当融合。
如果采用字段匹配方案,首先,需要对所有页面提取关键字段;然后,依据页面是否拥有相同关键字段进行分桶;最后,依据若干其他辅助信息判断页面是否应当融合。这种方式以人工配置为主,导致了页面的融合效率较低。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种页面的融合方法、装置、存储介质及电子装置,以至少解决相关技术中对页面进行融合时融合效率较低的技术问题。
根据本发明实施例的一个方面,提供了一种页面的融合方法,包括:从待融合的第一页面中提取第一关键词,并从待融合的第二页面中提取第二关键词;从所述第一关键词中提取第一权重满足第一目标条件的第一目标关键词,并从第二关键词中提取第二权重满足所述第一目标条件的第二目标关键词,其中,所述第一权重用于指示每个所述第一关键词对所述第一页面的代表性,所述第二权重用于指示每个所述第二关键词对所述第二页面的代表性;根据所述第一目标关键词和所述第二目标关键词确定所述第一页面和所述第二页面的目标页面相似度;在所述目标页面相似度满足第二目标条件的情况下,将所述第一页面和所述第二页面融合。
根据本发明实施例的另一方面,还提供了一种页面的融合装置,包括:第一提取模块,用于从待融合的第一页面中提取第一关键词,并从待融合的第二页面中提取第二关键词;第二提取模块,用于从所述第一关键词中提取第一权重满足第一目标条件的第一目标关键词,并从第二关键词中提取第二权重满足所述第一目标条件的第二目标关键词,其中,所述第一权重用于指示每个所述第一关键词对所述第一页面的代表性,所述第二权重用于指示每个所述第二关键词对所述第二页面的代表性;第一确定模块,用于根据所述第一目标关键词和所述第二目标关键词确定所述第一页面和所述第二页面的目标页面相似度;融合模块,用于在所述目标页面相似度满足第二目标条件的情况下,将所述第一页面和所述第二页面融合。
根据本发明实施例的另一方面,还提供了一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项中所述的方法。
根据本发明实施例的另一方面,还提供了一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行上述任一项中所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810456491.9/2.html,转载请声明来源钻瓜专利网。