[发明专利]确定文章类别的方法及装置有效
申请号: | 201910121925.4 | 申请日: | 2019-02-19 |
公开(公告)号: | CN109815337B | 公开(公告)日: | 2021-12-24 |
发明(设计)人: | 周文娟;李涛 | 申请(专利权)人: | 珠海天燕科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 姜凤岩;南霆 |
地址: | 519085 广东省珠海市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 确定 文章 类别 方法 装置 | ||
本申请实施例提供了一种确定文章类别的方法及装置,该方法包括:根据目标文章的标题确定目标文章所属的类别;基于预设的检测策略检测是否需要对目标文章的类别进行校正;若是,则从目标文章所对应的URL所包含的多个字段中提取表征目标文章的类别的目标字段;根据目标字段对目标文章所属的类别进行校正。本申请实施例,避免了通过人工方式对文章进行分类,节省了大量的人力和时间,提高了确定文章类别的效率和准确性,并且,对于英文文章,也不会存在语言识别障碍。
技术领域
本申请涉及信息处理技术领域,尤其涉及一种确定文章类别的方法及装置。
背景技术
近年来,随着信息技术的快速发展,机器学习算法不断发展壮大并在海内市场和海外市场均得到了广泛的应用。例如,可以通过机器学习算法对中文或外文文章进行分类等。
通常的,在使用机器学习算法对文章进行分类时,需要大量的样本文章进行分类模型的训练。为了提高分类模型的精准度,一般需要准备大量精准分类的样本文章。现有技术中,为了得到精准分类的样本文章,通常的做法则是采用人工方式对文章的类别进行标注。由于在进行分类训练时需要获取大量的样本文章,因此,采用人工分类的方式工作量较大,需要耗费大量的人力和时间。并且,采用人工进行分类,可能会存在一些错误或者理解偏差,从而导致类别标注的准确性较低。并且,在对一些外文类的文章,如英文文章进行类别标注时,可能会存在语言识别障碍等问题。
因此,有必要提出一种技术方案,以解决现有技术中,通过人工标注文章类别需要耗费大量的人力、时间,效率和准确率均较低,并且对英文文章进行分类时可能还会存在语言识别障碍的问题。
发明内容
本申请实施例的目的是提供一种确定文章类别的方法及装置,以解决现有技术中通过人工标注文章类别需要耗费大量的人力、时间,效率和准确率均较低,并且对英文文章进行分类时可能还会存在语言识别障碍的问题。
为解决上述技术问题,本申请实施例是这样实现的:
本申请实施例提供了一种确定文章类别的方法,包括:
根据目标文章的标题确定所述目标文章所属的类别;
基于预设的检测策略检测是否需要对所述目标文章的类别进行校正;
若是,则从所述目标文章所对应的统一资源定位符URL所包含的多个字段中提取表征所述目标文章的类别的目标字段;
根据所述目标字段对所述目标文章所属的类别进行校正。
本申请实施例还提供了一种确定文章类别的装置,包括:
第一确定模块,用于根据目标文章的标题确定所述目标文章所属的类别;
检测模块,用于基于预设的检测策略检测是否需要对所述目标文章的类别进行校正;
提取模块,用于若需要对所述目标文章的类别进行校正,则从所述目标文章所对应的统一资源定位符URL所包含的多个字段中提取表征所述目标文章的类别的目标字段;
校正模块,用于根据所述目标字段对所述目标文章所属的类别进行校正。
本申请实施例提供了一种确定文章类别的设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
根据目标文章的标题确定所述目标文章所属的类别;
基于预设的检测策略检测是否需要对所述目标文章的类别进行校正;
若是,则从所述目标文章所对应的统一资源定位符URL所包含的多个字段中提取表征所述目标文章的类别的目标字段;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于珠海天燕科技有限公司,未经珠海天燕科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910121925.4/2.html,转载请声明来源钻瓜专利网。