[发明专利]一种网页标签的分组方法和装置在审
申请号: | 201510742568.5 | 申请日: | 2015-11-04 |
公开(公告)号: | CN106649413A | 公开(公告)日: | 2017-05-10 |
发明(设计)人: | 胡于响 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司11227 | 代理人: | 王宝筠 |
地址: | 英属开曼群岛大开曼*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网页 标签 分组 方法 装置 | ||
技术领域
本发明涉及数据处理领域,特别是涉及一种网页标签的分组方法和装置。
背景技术
使用浏览器浏览网页时,打开的网页会以网页标签的形式一个个排列在浏览器的标签栏中,打开的网页越多,标签栏中排列的网页标签就越多。在标签栏中一般是以网页标签生成的时间顺序排列网页标签,新打开网页的网页标签排列在当前展示网页的网页标签之后。
当用户使用浏览器打开网页较多时,浏览器标签栏中的大量网页标签会显得比较无序。若用户想要寻找之前打开的某个网页,需要花费一定时间在标签栏中的大量网页标签中找到该网页对应的网页标签,降低了用户体验。
传统的解决方案是对网页标签进行分组,用户可以预先建立一个或多个组,通过给组取名来区分不同的组,例如“工作”、“购物”等。针对一个组,设定若干特定的统一资源定位符(英文:Uniform Resource Locator,缩写:URL),当生成网页标签时,提取该网页标签的URL并与为组设定的特定URL进行匹配,若匹配成功,则将该网页标签自动归入匹配成功的组中,例如,为“购物”组设定的特定URL为:www.taobao.com,标签栏中的网页标签的URL中若包括www.taobao.com,则会被归入该“购物”组中。分组后的浏览器标签栏中仅具有组标签和未分到组中的网页标签。
传统网页分组方式的问题在于,分组后,用户若需要打开已被归入组中的网页标签所对应的网页,首先需要思考该网页标签可能处于的组,明确了组以后,还至少需要二次点选才能点选到该网页标签,第一次是点选该网页标签所处的组标签,由此获得处于该组中的网页标签的展示界面,第二次是在该展示界面中点选所需的网页标签。多次点选的操作过程过于繁琐,依然会导致用户体验低。
发明内容
为了解决上述技术问题,本发明提供了一种网页标签的分组方法和装置,以使得属于一个标签组的网页标签在所述标签栏中连续排列在一起,用户只需一次点选便可点选到所需的网页标签,提高了用户体验度。
本发明实施例公开了如下技术方案:
一种网页标签的分组方法,所述方法包括:
提取浏览器标签栏中多个网页标签的标题;
计算提取到的多个标题之间的语义距离;
根据所述多个标题之间的语义距离,对所述多个标题对应的网页标签进行聚类;
通过聚类得到至少一个标签组,一个标签组包括至少一个网页标签;
将所述至少一个标签组依次排列在所述标签栏中,其中,属于一个标签组的网页标签连续的排列在所述标签栏中。
可选的,所述根据所述多个标题之间的语义距离,对所述多个标题对应的网页标签进行聚类,包括:
从所述多个标题中选取至少一个目标标题,根据所述多个标题中的非目标标题到目标标题的语义距离,对所述多个标题对应的网页标签进行聚类;通过聚类得到的所述至少一个标签组的数量与所述至少一个目标标题的数量相同,其中,一个标签组是根据一个目标标题通过所述聚类得到的。
可选的,所述计算提取到的多个标题之间的语义距离,包括:
对所述多个标题进行分词,其中,一个标题通过分词得到一个分词集合;
计算得到的多个分词集合之间分词与分词的语义子距离;
根据语义子距离得到所述多个标题之间的语义距离。
可选的,所述将至少一个标签组依次排列在所述标签栏中之后,还包括:
若所述标签栏中出现新网页标签,提取所述新网页标签的标题;
判断所述新网页标签的标题与所述至少一个标签组中标题之间的语义距离是否满足预设阈值,
若所述新网页标签的标题只与一个标签组中标题之间的语义距离满足所述预设阈值,将所述新网页标签加入这个标签组中,并将所述新网页标签与这个标签组的网页标签连续的排列在所述标签栏中;
若所述新网页标签的标题与多个标签组中标题之间的语义距离满足所述预设阈值,将所述新网页标签加入最小标签组,并将所述新网页标签与所述最小标签组的网页标签连续的排列在所述标签栏中,所述最小标签组为所述新网页标签的标题与多个标签组中标题之间的语义距离最小的标签组。
可选的,若采用从所述多个标题中选取至少一个目标标题,根据所述多个标题中的非目标标题到目标标题的语义距离,对所述多个标题对应的网页标签进行聚类;所述新网页标签的标题与所述至少一个标签组中标题之间的语义距离,包括:所述新网页标签的标题与所述至少一个标签组的目标标题之间的语义距离。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510742568.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据处理方法和设备
- 下一篇:一种数据仓库数据异常的预检测方法和设备