[发明专利]文章质量检测方法和装置有效

专利信息
申请号: 201910552246.2 申请日: 2019-06-21
公开(公告)号: CN110162797B 公开(公告)日: 2023-04-07
发明(设计)人: 张小彬;付志宏;杨宇鸿;赖佳伟;何径舟 申请(专利权)人: 北京百度网讯科技有限公司
主分类号: G06F40/205 分类号: G06F40/205;G06F16/35
代理公司: 北京清亦华知识产权代理事务所(普通合伙) 11201 代理人: 宋合成
地址: 100085 北京市*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文章 质量 检测 方法 装置
【说明书】:

发明提出一种文章质量检测方法和装置,其中,方法包括:提取待检测文章在目标结构部分的内容;将内容输入与目标结构部分对应的分类模型,获取文章分类模型输出的文章类型;根据文章类型生成对待检测文章的质量检测结果。由此,结合文章类型的识别进行文章的质量检测,提高了文章质量检测的准确性。

技术领域

本发明涉及信息处理技术领域,尤其涉及一种文章质量检测方法和装置。

背景技术

随着计算机技术的发展,各种网络上的文章越来越多,因此,为了提高信息的有用性,基于文章的质量对文章进行管理成为主流。

相关技术中,通过特征工程抽取一些文章的特征,如文章的字数,图片数量,中英文字数占比,文章的话题分布,段落数等。把这些特征组成成一个特征向量,输入到分类器(如随机森林、神经网络等)中做分类,最后得到的类别就是文章的质量打分评估。

然而,分类器的性能和泛化性很大程度上取决于特征抽取工作的好坏。在文章的质量评估中,抽取的特征很多不具有普适性,即针对不同的文章类型,特征起到的正负向作用可能不尽相同。比如,对于一篇介绍动漫的文章来说,起到正向作用的特征应当是图片特征,对于一篇科研文章,起到正向作用的特征应当是数据特征,因此,基于分类器提取同样的文章特征会导致文章质量的评价不准确。

发明内容

本发明旨在至少在一定程度上解决上述技术中的技术问题之一。

为此,本发明的第一个目的在于提出一种文章质量检测方法,以结合文章类型的识别进行文章的质量检测,提高了文章质量检测的准确性。

本发明的第二个目的在于提出一种文章质量检测装置。

本发明的第三个目的在于提出一种计算机设备。

本发明的第四个目的在于提出一种计算机可读存储介质。

为达上述目的,本发明第一方面实施例提出了一种文章质量检测方法,包括:提取待检测文章在目标结构部分的内容;将所述内容输入与所述目标结构部分对应的分类模型,获取所述文章分类模型输出的文章类型;根据所述文章类型生成对所述待检测文章的质量检测结果。

另外,本发明实施例的文章质量检测方法,还具有如下附加的技术特征:

可选地,当所述目标结构部分包含标题部分时,所述将所述内容输入与所述目标结构部分对应的分类模型,获取所述文章分类模型输出的文章类型,包括:将所述待检测文章的标题输入第一分类模型,以使所述第一分类模型通过所述标题提取标题向量并根据所述标题向量生成并输出所述文章类型。

可选地,当所述目标结构部分包含主体内容部分时,所述将所述内容输入与所述目标结构部分对应的分类模型,获取所述文章分类模型输出的文章类型,包括:将所述待检测文章的主体内容输入第二分类模型,以使所述第二分类模型提取所述主体内容多个局部特征并将所述多个局部特征拼接后,将拼接后的多个局部特征输出池化层获取主体内容向量并根据所述主体内容向量生成并输出所述文章类型。

可选地,在所述将所述内容输入与所述目标结构部分对应的分类模型之前,包括:根据文章主旨建立文章分类体系,其中,所述文章分类体系包括多个文章类型及与所述多个文章类型中每个文章类型对应的子类型;获取文章类型覆盖所述文章分类体系的训练文章样本;根据所述训练文章样本训练所述分类模型,直至所述分类模型输出的文章类型与输入的训练文章样本一致时,完成对所述分类模型的训练。

可选地,所述获取文章类型覆盖所述文章分类体系的训练文章样本,包括:获取与所述文章分类体系中的文章类型对应的多个网站地址;根据所述多个网站地址确定与所述文章类型对应的训练文章样本。

可选地,所述根据所述文章类型生成对所述待检测文章的质量检测结果,包括:获取与所述文章类型对应的第一质量评测模型;将所述待检测文章输入所述第一质量评测模型,获取所述质量检测结果。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910552246.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top