[发明专利]文本质量的识别方法、装置、设备及存储介质在审
申请号: | 202011003717.3 | 申请日: | 2020-09-22 |
公开(公告)号: | CN112131345A | 公开(公告)日: | 2020-12-25 |
发明(设计)人: | 朱灵子;衡阵;马连洋 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06N3/08;G06N3/04 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 徐立 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 质量 识别 方法 装置 设备 存储 介质 | ||
本申请公开了一种文本质量的识别方法、装置、设备及存储介质,涉及深度学习领域。该方法包括:获取文本的文本向量,文本的文本向量至少包括标题文本向量和正文文本向量中的一种,标题文本向量是文本的标题对应的向量,正文文本向量是文本的正文对应的向量;获取文本中的关键词对应的图向量,图向量是关键词经过图嵌入处理后得到的;对标题文本向量、正文文本向量和图向量进行分类,得到文本对应的质量等级预测概率;根据质量等级预测概率对文本质量的质量等级进行划分。通过将文本转换为共现关系结构图,利用随机游走的算法对共现关系结构图进行图嵌入处理,从而提高文本质量识别模型对文本质量的识别能力。
技术领域
本申请涉及深度学习领域,特别涉及一种文本质量的识别方法、装置、设备及存储介质。
背景技术
随着互联网技术的发展,用户接收到的信息呈指数倍增长,各类信息发布平台通过发布高质量的文章来增加平台的访问量和阅读量。
在信息发布平台发布文章时,通常会在文章中配有图片,通过图文并茂的方式提高文章的质量。示意性的,信息发布平台通常会构建独有的文章质量评价系统,从文章客观先验体验(包括文章排版、文章配图的清晰度、美观度、图片与文章内容的匹配度中的至少一种)和文本内容的质量两个方面去评价一篇文章的质量。相关技术中,利用有监督的学习方式训练的文本质量识别模型对文本的基础内容进行识别从而确定文本的质量,如利用基于转换模型的双向编码表示模型(Bidirectional Encoder Representations fromTransformers,BERT模型)从文本的基础内容上判定文本的质量。
上述技术方案中,文本质量识别模型仅通过对文本基础内容进行识别来判定文本质量的高低,识别维度较为单一,易于使得文本质量识别模型在识别文本的整体质量时识别准确率较低。
发明内容
本申请实施例提供了一种文本质量的识别方法、装置、设备及存储介质。通过将文本转换为共现关系结构图,利用随机游走的算法对共现关系结构图进行图嵌入处理,从而提高文本质量识别模型对文本质量的识别能力。所述技术方案包括:
根据本申请的一方面,提供了一种文本质量的识别方法,所述方法包括:
获取文本的文本向量,文本的文本向量至少包括标题文本向量和正文文本向量中的一种,所述标题文本向量是所述文本的标题对应的向量,所述正文文本向量是所述文本的正文对应的向量;
获取所述文本中的关键词对应的图向量,所述图向量是所述关键词经过图嵌入处理后得到的;
对所述文本的文本向量和所述图向量进行分类,得到所述文本对应的质量等级预测概率;
根据所述质量等级预测概率对所述文本质量的质量等级进行划分。
根据本申请的另一方面,提供了一种文本质量的识别装置,所述装置包括:
获取模块,用于获取文本的文本向量,所述文本的文本向量至少包括标题文本向量和正文文本向量中的一种,所述标题文本向量是所述文本的标题对应的向量,所述正文文本向量是所述文本的正文对应的向量;
所述获取模块,用于获取所述文本中的关键词对应的图向量,所述图向量是所述关键词经过图嵌入处理后得到的;
分类模块,用于对所述文本的文本向量和所述图向量进行分类,得到所述文本对应的质量等级预测概率;
质量划分模块,用于根据所述质量等级预测概率对所述文本质量的质量等级进行划分。
根据本申请的另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述方面所述的文本质量的识别方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011003717.3/2.html,转载请声明来源钻瓜专利网。