[发明专利]标签的处理方法、装置、电子设备及存储介质有效
申请号: | 201811238336.6 | 申请日: | 2018-10-23 |
公开(公告)号: | CN109614482B | 公开(公告)日: | 2022-06-03 |
发明(设计)人: | 申世伟 | 申请(专利权)人: | 北京达佳互联信息技术有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/9535 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
地址: | 100084 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 标签 处理 方法 装置 电子设备 存储 介质 | ||
1.一种标签的处理方法,其特征在于,所述方法包括:
获取信息分享平台中对目标对象设置的原始话题标签;
从所述原始话题标签中,确定待验证话题标签;
对所述待验证话题标签进行网页搜索;
根据所述网页搜索获得的搜索结果,从所述待验证话题标签中提取出目标话题标签,包括:
获取搜索结果页面的第一源代码;
判断所述第一源代码的超文本引用字段中是否包含目标地址链接,所述目标地址链接是指所述待验证话题标签相关的知识类型网站或百科类型网站词条页面的链接;
在所述第一源代码的超文本引用字段中包含目标地址链接的情况下,将所述待验证话题标签确定为目标话题标签。
2.根据权利要求1所述的方法,其特征在于,所述从所述原始话题标签中,确定待验证话题标签,包括:
确定预设时间段内,所述原始话题标签的出现频次;
将出现频次大于预设频次阈值的原始话题标签确定为待验证话题标签。
3.根据权利要求1所述的方法,其特征在于,在根据所述网页搜索获得的搜索结果,从所述待验证话题标签中提取出目标话题标签之后,还包括:
获取与所述目标地址链接对应的目标页面;
根据所述目标页面,确定所述目标话题标签的分类。
4.根据权利要求3所述的方法,其特征在于,所述根据所述目标页面,确定所述目标话题标签的分类,包括:
获取所述目标页面的第二源代码;
解析所述第二源代码中的标题字段和/或属性字段,获取所述目标话题标签所属的分类。
5.根据权利要求1所述的方法,其特征在于,所述获取信息分享平台中针对目标对象设置的原始话题标签,包括:
获取信息分享平台中,针对目标对象设置的标题信息;
从所述标题信息中,提取用户设置的原始话题标签。
6.一种标签的处理装置,其特征在于,所述装置包括:
原始话题标签获取模块,被配置为执行获取信息分享平台中,针对目标对象设置的原始话题标签;
待验证话题标签确定模块,被配置为执行从所述原始话题标签中,确定待验证话题标签;
网页搜索模块,被配置为执行对所述待验证话题标签进行网页搜索;
目标话题标签提取模块,被配置为执行根据所述网页搜索获得的搜索结果,从所述待验证话题标签中提取出目标话题标签;
所述目标话题标签提取模块包括:
第一源代码获取子模块,被配置为执行获取搜索结果页面的第一源代码;
判断子模块,被配置为执行判断所述第一源代码的超文本引用字段中是否包含目标地址链接,所述目标地址链接是指所述待验证话题标签相关的知识类型网站或百科类型网站词条页面的链接;
目标话题标签确定子模块,被配置为执行在所述第一源代码的超文本引用字段中包含目标地址链接的情况下,将所述待验证话题标签确定为目标话题标签。
7.根据权利要求6所述的装置,其特征在于,所述待验证话题标签确定模块包括:
频次确定子模块,被配置为执行确定预设时间段内,所述原始话题标签的出现频次;
待验证话题标签确定子模块,被配置为执行将出现频次大于预设频次阈值的原始话题标签确定为待验证话题标签。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:
目标页面获取模块,被配置为执行获取与所述目标地址链接对应的目标页面;
分类确定模块,被配置为执行根据所述目标页面,确定所述目标话题标签的分类。
9.根据权利要求8所述的装置,其特征在于,所述分类确定模块包括:
第二源代码获取子模块,被配置为执行获取所述目标页面的第二源代码;
分类获取子模块,被配置为执行解析所述第二源代码中的标题字段和/或属性字段,获取所述目标话题标签所属的分类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司,未经北京达佳互联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811238336.6/1.html,转载请声明来源钻瓜专利网。