[发明专利]确定文章类别的方法及装置有效
申请号: | 201910121925.4 | 申请日: | 2019-02-19 |
公开(公告)号: | CN109815337B | 公开(公告)日: | 2021-12-24 |
发明(设计)人: | 周文娟;李涛 | 申请(专利权)人: | 珠海天燕科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 姜凤岩;南霆 |
地址: | 519085 广东省珠海市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 确定 文章 类别 方法 装置 | ||
1.一种确定文章类别的方法,其特征在于,所述方法包括:
根据目标文章的标题确定所述目标文章所属的类别;
基于预设的检测策略检测是否需要对所述目标文章的类别进行校正;
若是,则将所述目标文章所对应的统一资源定位符URL拆分为多个字段;所述目标文章所属的目标网站的不同级别的页面对应所述URL的不同字段;在所述多个字段中确定两个或多个表征类别的字段以及各个所述表征类别的字段所对应的目标网站的页面的级别;
将最高级别的页面所对应的字段确定为目标字段,或者,将最高级别的前一级别或者前几级别的页面所对应的字段确定为目标字段,或者,将所有表征类别的字段均确定为目标字段,或者,根据各个所述表征类别的字段组合目标字段;
根据所述目标字段对所述目标文章所属的类别进行校正。
2.如权利要求1所述的方法,其特征在于,所述根据所述目标字段对所述目标文章所属的类别进行校正,包括:
将所述目标字段与预先建立的类别映射表进行匹配,以确定所述目标字段所对应的类别;其中,所述类别映射表中存储有多个网站中的各目标字段与类别的映射关系;
使用所述目标字段所对应的类别替换通过所述目标文章的标题所确定的所述目标文章的类别。
3.如权利要求1所述的方法,其特征在于,若所述目标字段在预先建立的类别映射表中对应有至少两个类别;其中,所述类别映射表中存储有多个网站中的各目标字段与类别的映射关系;
所述根据所述目标字段对所述目标文章所属的类别进行校正,包括:
将所述目标字段与所述类别映射表进行匹配,得到所述目标字段所对应的两个或多个类别;
根据所述URL中的其他字段,从所述目标字段所对应的两个或多个类别中确定所述目标文章所属的类别;
使用所述目标文章所述的类别替换通过所述目标文章的标题所确定的所述目标文章的类别。
4.如权利要求1-3任一项所述的方法,其特征在于,所述根据目标文章的标题确定所述目标文章所属的类别,包括:
提取所述标题中表征所述目标文章的文章内容的特征字词;
将所述特征字词与预先建立的类别关键词列表进行匹配,以确定所述目标文章所属的类别;其中,所述类别关键词列表中存储有不同类别所对应的类别关键词。
5.如权利要求1-3任一项所述的方法,其特征在于,所述基于预设的检测策略检测是否需要对所述目标文章的类别进行校正,包括:
判断所述目标文章所属的类别是否包含在预先建立的特定类别列表中;其中,所述特定类别列表中的特定类别为基于标题所确定的文章类别的准确性低于设定阈值的类别;
若是,则确定需要对所述目标文章的类别进行校正。
6.如权利要求4所述的方法,其特征在于,通过如下步骤建立所述类别关键词列表:
收集多个网站上的各篇文章所对应的URL;
针对所收集的每个所述URL,从所述URL所包含的多个字段中确定表征文章路径的路径字段;
基于每个所述URL中的路径字段,建立所述类别关键词列表。
7.如权利要求6所述的方法,其特征在于,所述基于每个所述URL中的路径字段,建立所述类别关键词列表,包括:
筛选出所述路径字段中表征所述URL所对应文章内容的特征字词;
对所述特征字词进行筛选,并从筛选后的特征字词中确定每个类别所对应的特征字词,得到每个类别所对应的类别关键词。
8.如权利要求7所述的方法,其特征在于,所述对所述特征字词进行筛选,包括:
筛除所述特征字词中的停用词和词频小于设定阈值的特征字词,并根据通过其他途径获取的类别关键词库,对筛选后的所述特征字词进行再次筛选;其中,所述词频为各个特征字词在所述类别所对应的特征词库中的词频。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于珠海天燕科技有限公司,未经珠海天燕科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910121925.4/1.html,转载请声明来源钻瓜专利网。