[发明专利]一种面向中文小说领域的文本内容审核方法在审

专利信息
申请号: 202111480639.0 申请日: 2021-12-06
公开(公告)号: CN114139533A 公开(公告)日: 2022-03-04
发明(设计)人: 张乐剑;王为强;徐童;王玉龙;赵海秀;张少杰;廖建新;王晶 申请(专利权)人: 北京邮电大学
主分类号: G06F40/279 分类号: G06F40/279;G06F40/216;G06F40/30;G06N3/04;G06N3/08
代理公司: 暂无信息 代理人: 暂无信息
地址: 100876 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 面向 中文 小说 领域 文本 内容 审核 方法
【说明书】:

一种面向中文小说领域的文本内容审核方法,包括:获取敏感词及所属类别,构建敏感词库;通过字符串匹配算法,检测待审核文本是否包含敏感词,如果是,则待审核文本是违规文本,且分类是敏感词所属类别,如果否,则继续下一步;设置多个违规分类标签,构建并训练小说文本内容审核模型,然后将待审核文本输入模型中,其工作流程如下:计算输入文本的语义特征向量和每个违规分类标签的信息特征向量,再计算输入文本和每个违规分类标签的相关语义特征向量,最后采用胶囊网络对相关语义特征向量聚类,根据顶层胶囊的每个违规分类标签的类别概率确定输入文本的分类。本发明属于信息技术领域,能实现中文小说文本内容自动审核,并提高审核准确率及效率。

技术领域

本发明涉及一种面向中文小说领域的文本内容审核方法,属于信息技术领域。

背景技术

随着互联网技术的日趋成熟,依托于网络基础平台的网络小说作为新兴小说类型发展迅速。相较于传统文体,网络小说风格自由,题材不限,更近口语并充斥网络流行语,具有很强的时代性、娱乐性、广泛性和包容性。但与之相对的,高度自主性降低了网络小说作者的入行门槛,导致发布的文章良莠不齐,若不能对其进行有效筛选,很有可能造成错误的价值观和舆论导向。传统的人工审核需要耗费大量的时间和劳动成本,面对每天以成千上万数量更新的文章难免捉襟见肘。

因此,如何实现中文小说文本内容的自动审核,并有效提高审核准确度和审核效率,已成为现有技术中亟待解决的技术问题之一。

发明内容

有鉴于此,本发明的目的是提供一种面向中文小说的文本内容审核方法,能实现中文小说文本内容的自动审核,并有效提高审核准确率及审核效率。

为了达到上述目的,本发明提供了一种面向中文小说的文本内容审核方法,包括有:

步骤一、获取敏感词及所属类别,并构建敏感词库;

步骤二、通过字符串匹配算法,检测待审核的中文小说文本是否包含有敏感词库中的敏感词,如果是,则待审核的中文小说文本是违规文本,且其审核分类是所包含敏感词的所属类别,本流程结束;如果否,则继续下一步;

步骤三、设置多个违规分类标签,预先构建、并训练小说文本内容审核模型,然后将待审核的中文小说文本输入训练好的小说文本内容审核模型中,最后输出文本审核分类结果,小说文本内容审核模型的工作流程如下:首先通过神经网络编码得到输入的中文小说文本的语义特征向量和每个违规分类标签的信息特征向量,然后采用向量投影的计算方式,获得输入的中文小说文本和每个违规分类标签的相关语义特征向量,最后采用胶囊网络对输入的中文小说文本和所有违规分类标签的相关语义特征向量进行聚类,根据顶层胶囊计算得到的对应于每个违规分类标签的类别概率确定输入的中文小说文本的审核分类。

与现有技术相比,本发明的有益效果是:本发明在收集到的敏感词库基础上,进一步构建辅助判断的敏感拼音词库和敏感形近词库,首先通过AC自动机算法检测文本中是否包含敏感词,若是,则标记为违规文本,并根据敏感词所属类别进行分类;若否,则将文本继续输入至小说文本内容审核模型,从而获得模型输出的审核分类结果,能实现计算机自动完成小说文本内容的审核,在保证时效性的同时还能达到较为理想的审核准确率,并减少各类人力成本投入,对于缩减网络小说平台运营管理成本、维护良好的互联网阅读环境都具有不可忽视的意义。

附图说明

图1是本发明一种面向中文小说领域的文本内容审核方法的流程图。

图2是图1步骤一的具体流程图。

图3是图2步骤13中计算敏感字种子集合中的每个敏感字和候选字集合中的每个候选字之间的相似度的具体流程图。

图4是图1步骤三中的小说文本内容审核模型的具体工作流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步的详细描述。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111480639.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top