[发明专利]一种新闻稿件主题分类及审核方法在审

专利信息
申请号: 201811189190.0 申请日: 2018-10-12
公开(公告)号: CN109344256A 公开(公告)日: 2019-02-15
发明(设计)人: 钟坤华;刘曙光;林小光;陈芋文;孙启龙 申请(专利权)人: 中国科学院重庆绿色智能技术研究院
主分类号: G06F16/35 分类号: G06F16/35
代理公司: 北京同恒源知识产权代理有限公司 11275 代理人: 赵荣之
地址: 400714 *** 国省代码: 重庆;50
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 新闻稿件 敏感 审核 命中 主题分类 概率 词汇 发布 人工智能应用 应用人工智能 词汇过滤 词汇统计 概率分布 稿件数据 媒体行业 审核结果 文字匹配 主题分析 主题模型 最大概率 阈值判定 大数据 敏感词 重构的 采编 构建 稿件 输出 分类 分析 统计
【权利要求书】:

1.一种新闻稿件主题分类及审核方法,其特征在于:包括以下步骤:

S1:基于现有的已发布的稿件数据集构建LDA主题模型;

S2:设置可发布主题、可发布主题概率阈值、敏感词汇集、敏感词汇命中次数阈值;

S3:通过构建的LDA主题模型对待审稿件进行主题分析,计算其主题概率分布,对待审稿件按照最大概率主题进行分类,将待审稿件纳入该主题类别;

S4:以文字匹配的方式,对待审稿件进行敏感词汇统计分析,统计每个敏感词的命中次数,并计算总的命中次数;

S5:基于步骤S3和S4的分析结果,对待审稿件进行阈值判定,判断审核稿件是否通过;

S6:输出待审稿件的审核结果、概率最大的前三个主题及其概率、敏感词汇过滤分析统计结果。

2.根据权利要求1所述的一种新闻稿件主题分类及审核方法,其特征在于:在步骤S2中,针对不同类型的新闻版块,设置不同的可发布主题,可发布主题的概率阈值根据具体情况动态调整,敏感词汇集及其命中总次数阈值根据具体情况动态调整。

3.根据权利要求1所述的一种新闻稿件主题分类及审核方法,其特征在于:在步骤S2中,对于同一个新闻版块,能够设置多个可发布主题,每个可发布主题分别设置相应的概率阈值。

4.根据权利要求1所述的一种新闻稿件主题分类及审核方法,其特征在于:在步骤S2中,可发布主题根据步骤S1所构建的LDA主题模型输出的主题表述进行设置。

5.根据权利要求1所述的一种新闻稿件主题分类及审核方法,其特征在于:步骤S1中所述的构建LDA主题模型,是基于已发布的新闻稿件数据集,保留其文字部分,去除图片和视频内容,自动构建LDA主题模型,获得每个主题下代表词汇及其概率分布。

6.根据权利要求1所述的一种新闻稿件主题分类及审核方法,其特征在于:步骤S3中所述对待审稿件进行主题分析,是基于已构建的LDA主题模型,对待审稿件进行主题分析,获得待审稿件的主题概率分布,统计概率最大的前三个主题并记录其对应概率值,作为输出信息的一部分。

7.根据权利要求1所述的一种新闻稿件主题分类及审核方法,其特征在于:在步骤S5中,综合主题分类分析和敏感词分析的结果,对待审稿件进行阈值判定审核,待审稿件同时满足如下三个条件的情况下,审核通过,否则审核不通过:

a)主题分类分析结果中,待审稿件的最大概率主题必须是预设置的可发布主题之一;

b)主题分类分析结果中,待审稿件的最大概率主题的概率必须大于等于预设置的相应概率阈值;

c)敏感词汇总的命中次数不超过预设置的总次数阈值。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院重庆绿色智能技术研究院,未经中国科学院重庆绿色智能技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811189190.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top