[发明专利]一种网页分类方法及装置有效
申请号: | 201910932847.6 | 申请日: | 2019-09-29 |
公开(公告)号: | CN110705290B | 公开(公告)日: | 2023-06-23 |
发明(设计)人: | 施瑞瑞 | 申请(专利权)人: | 新华三信息安全技术有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F16/958;G06F18/241;G06N3/0464;G06N3/08 |
代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 孟维娜;李欣 |
地址: | 230001 安徽省合肥市高新区*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网页 分类 方法 装置 | ||
本申请实施例提供了一种网页分类方法及装置,涉及互联网技术领域,其中,上述方法包括:获得待分类网页的网页信息;在所述网页信息中包含页面标题和页面描述的情况下,对所述页面标题和页面描述进行分词处理,获得第一分词结果以及所述第一分词结果中各个词的词性;根据所述第一分词结果中的词和各个词的词性,确定所述待分类网页所属的分类。应用本申请实施例提供的方案,能够提高网页分类的准确性。
技术领域
本申请涉及互联网技术领域,特别是涉及一种网页分类方法及装置。
背景技术
随着互联网行业的飞速发展,各种网页能够为用户提供的信息越来越多。然而由于各种网页越来越多,用户越来越难以从繁多的网页中定位出自己所需的网页。为此需要对各种网页进行分类,以便于用户快速定位自己所需的网页。
现有技术中,对网页进行分类时,一般依据网页的HTML(Hyper Text MarkupLanguage,超文本标记语言)标签,确定网页所属的分类。虽然HTML标签代表了网页的性质,但是由于HTML标签受人为因素影响较大,易导致网页分类准确性低。
发明内容
本申请实施例的目的在于提供一种网页分类方法及装置,以提高网页分类的准确性。具体技术方案如下:
第一方面,本申请实施例提供了一种网页分类方法,所述方法包括:
获得待分类网页的网页信息;
在所述网页信息中包含页面标题和页面描述的情况下,对所述页面标题和页面描述进行分词处理,获得第一分词结果以及所述第一分词结果中各个词的词性;
根据所述第一分词结果中的词和各个词的词性,确定所述待分类网页所属的分类。
第二方面,本申请实施例提供了一种网页分类装置,所述装置包括:
网页信息获得模块,用于获得待分类网页的网页信息;
分词信息获得模块,用于在所述网页信息中包含页面标题和页面描述的情况下,对所述页面标题和页面描述进行分词处理,获得第一分词结果以及所述第一分词结果中各个词的词性;
第一分类确定模块,用于根据所述第一分词结果中的词和各个词的词性,确定所述待分类网页所属的分类。
第三方面,本申请实施例提供了一种电子设备,包括处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令,所述处理器被所述机器可执行指令促使:实现本申请实施例所述的方法步骤。
第四方面,本申请实施例提供了一种机器可读存储介质,存储有机器可执行指令,在被处理器调用和执行时,所述机器可执行指令促使所述处理器:实现本申请实施例所述的方法步骤。
由以上可见,应用本申请实施例提供的方案进行网页分类时,在待分类网页的网页信息中包含页面标题和页面描述的情况下,对上述页面标题和页面描述进行分词处理,获得第一分词结果以及第一分词结果中各个词的词性,然后根据上述第一分词结果中的词和各个词的词性,确定待分类网页所属的分类。由于页面标题和页面描述受人为因素影响较小,所以,依据页面标题和页面描述中所包含的词以及词的词性对网页进行分类,能够提高网页分类的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的第一种网页分类方法的流程示意图;
图2为本申请实施例提供的第二种网页分类方法的流程示意图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新华三信息安全技术有限公司,未经新华三信息安全技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910932847.6/2.html,转载请声明来源钻瓜专利网。