[发明专利]一种文本质量检测方法在审
申请号: | 201910135887.8 | 申请日: | 2019-02-19 |
公开(公告)号: | CN110046342A | 公开(公告)日: | 2019-07-23 |
发明(设计)人: | 郭亚;祝慧佳;赵智源;周书恒 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 林祥 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 文本片段 质量检测 质量检测结果 质量检测模型 标准化问题 待检测文本 文本序列 预设算法 检测 申请 | ||
本申请提供了一种文本质量检测方法,将获取待检测的文本序列切分为不同的文本片段分别在预先训练的文本质量检测模型中进行检测,并利用预设算法计算所述不同文本片段的质量评分的综合值,将计算结果确定为所述待检测文本序列的质量检测结果,从而解决不同长度文本质量评分标准化问题。
技术领域
本说明书涉及互联网技术领域,尤其涉及一种文本质量检测方法。
背景技术
随着各类网上社区的发展,每天都会生成大量的文章和评论数据,用户可以通过各种评论数据获取信息,进行交互。与此同时,也会产生大量低质量的内容,例如重复文本,乱码文本,广告变种文本等等,这些低质量的文本内容既影响用户体验,也增加平台风险。
面对海量的数据,仅仅依靠人工难以高效的筛选出高质量的对用户有价值的信息,传统方案通常引入RNN(循环神经网络,Recurrent Neural Network)模型进行文本识别,RNN模型通过待检测文本在低质量文本中的出现概率判断待检测文本的质量评分。但在实际文本预测过程,由于算法自身特点,通过模型计算长句获得的概率往往低于短句。这让不同长度之间的句子获取的质量分标准不够统一,使得识别结果在一定程度上偏离客观情况。
发明内容
针对上述技术问题,本说明书实施例提供一种文本质量检测方法,技术方案如下:
根据本说明书实施例的第一方面,提供一种文本质量检测方法,该方法包括:
获取待检测的文本序列;
将所述文本序列通过固定长度的滑动窗口处理为若干文本片段,其中,滑动窗口每次移动预定义长度,将每次移动后滑动窗口内的文本内容确定为一个文本片段;
将所获得的若干文本片段输入预先训练的文本质量检测模型,根据输出结果确定所述若干文本片段的预测损失值,根据所述预测损失值确定对应文本片段的质量评分,其中,所述预先训练的文本质量检测模型为通过已确定质量的文本序列样本训练的RNN模型;
根据本说明书实施例的第二方面,提供一种文本质量检测装置,该装置包括:
文本获取模块:用于获取待检测的文本序列;
文本处理模块:用于将所述文本序列通过固定长度的滑动窗口处理为若干文本片段,其中,滑动窗口每次移动预定义长度,将每次移动后滑动窗口内的文本内容确定为一个文本片段;
文本检测模块:用于将所获得的若干文本片段输入预先训练的文本质量检测模型,根据输出结果确定所述若干文本片段的预测损失值,根据所述预测损失值确定对应文本片段的质量评分,其中,所述预先训练的文本质量检测模型为通过已确定质量的文本序列样本训练的RNN模型;
结果计算模块:用于利用预设算法计算所述不同文本片段的质量评分的综合值,将计算结果确定为所述待检测文本序列的质量检测结果。
根据本说明书实施例的第三方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现一种文本质量检测方法,该方法包括:
获取待检测的文本序列;
将所述文本序列通过固定长度的滑动窗口处理为若干文本片段,其中,滑动窗口每次移动预定义长度,将每次移动后滑动窗口内的文本内容确定为一个文本片段;
将所获得的若干文本片段输入预先训练的文本质量检测模型,根据输出结果确定所述若干文本片段的预测损失值,根据所述预测损失值确定对应文本片段的质量评分,其中,所述预先训练的文本质量检测模型为通过已确定质量的文本序列样本训练的RNN模型;
利用预设算法计算所述不同文本片段的质量评分的综合值,将计算结果确定为所述待检测文本序列的质量检测结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910135887.8/2.html,转载请声明来源钻瓜专利网。