[发明专利]一种用于资讯内容违规量化分析的方法在审
申请号: | 201710901623.X | 申请日: | 2017-09-28 |
公开(公告)号: | CN107609173A | 公开(公告)日: | 2018-01-19 |
发明(设计)人: | 金利杰;亢保星;孙雪宁;高荣威;王海晗;亢晓妮;逯久月;曹静 | 申请(专利权)人: | 云天弈(北京)信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京华夏正合知识产权代理事务所(普通合伙)11017 | 代理人: | 韩登营,曲芳兵 |
地址: | 100044 北京市西城*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 资讯 内容 违规 量化 分析 方法 | ||
技术领域
本发明涉及资讯分析领域,尤其涉及一种用于资讯内容违规量化分析的方法。
背景技术
目前,现有技术中资讯内容违规的分析首先基于关键词匹配的过滤方法进行分析,其原理是:首先准备一个关键词库,库中记录预选出的一些关键词。当对一个资讯内容进行判断时,将这个资讯内容与关键词库中的词逐一进行匹配,如果存在着一个或多个关键词能够与资讯内容中的文本内容匹配上,即有关键词在文本中出现,则判断这个网页是否属于需要管控的信息,如果是,则对这个资讯内容进行过滤;否则,则说明这一网页不是需要过滤的目标。因此,目前基于关键词匹配方法的缺点是:无法对违规资讯内容进行量化分析。
因此,目前亟需一种用于资讯内容违规量化分析的方法。
发明内容
有鉴于此,本申请提供一种用于资讯内容违规量化分析的方法,有利于对违规资讯内容进行量化分析。
本申请提供一种用于资讯内容违规量化分析的方法,包括:
A、实时监测各个资讯内容;
B、监测所述各个资讯内容中出现预设数据库中存储的各个违规句子片段时,建立该违规句子片段与其所在的资讯内容的索引,并将其存储到所述数据库中;
C、获取所述数据库中当前违规句子片段及各个违规句子片段在不同指定时间段的资讯内容中出现的频率,并据此获取不同时间段的各个违规句子片段的违规排名。
由上,本申请通过对资讯内容中的违规句子片段进行监测,并进一步的对其进行量化分析,获取不同时间段的各个违规句子片段的违规排名,有利于向用户直观展示违规句子片段的违规情况。该排名还对应有与其相关的资讯内容,有利于方便用户直接点击查阅。例如,可以直观展示每天、每周、每月、每年或者其他指定日期时间段的各个违规句子片段的违规排名。同时,对于敏感词判断方法,由于敏感词所处的语境不同其可能代表的含义不同。例如:同样是“杀人”一词,它既可能出现在正面的打击暴力的新闻中,也可能出现在一些暴力新闻内容之中,而这两种新闻在性质上是完全不同的。因此,如果简单的使用关键词监测,会造成判断不准确。而通过对违规句子片段层面进行监测,有利于增强违规监测的准确性。
优选地,所述步骤C之后还包括:
D、根据所述不同时间段的各个违规句子片段的违规排名获取违规句子片段的违规趋势。
由上,上述违规趋势可以以线型图表示,通过该违规趋势可以直观的查看在一周之内、或一年之内、或不同年份等不同时间段内的各个违规句子片段出现的违规趋势是升高还是降低。
优选地,所述步骤B还包括:
B1、监测所述各个资讯内容中出现预设数据库中存储的敏感词时:
B11、结合各个敏感词分别在所述各个资讯内容中出现的语境,通过多维度对其分析各个敏感词的违规指数;其中,所述通过多维度分析各个敏感词的违规指数包括:通过结合该敏感词所涉及的主体、人物、时间、地点、时间分析所述各个敏感词的违规指数;
B12、将所述违规指数超过第一指定阈值的敏感词标记为违规敏感词,将所述违规敏感词所在的句子片段标注为违规句子片段,建立该违规句子片段与其所在的资讯内容的索引,并将其存储到所述数据库中。
由上,本申请通过多维度的分析确定各个敏感词的违规指数,例如结合该敏感词所涉及的主体、人物、时间、地点、时间分析所述各个敏感词的违规指数并进一步的将其所在的句子片段标注为违规句子片段,以使后续判断时可根据该违规句子片段判断其是否违规,例如,敏感词“人权危机”,当其为“印度深陷人权危机”时,则该句子片段不违规,当其为“中国深陷人权危机”时,则该句子片段违规。
优选地,所述步骤C还包括:
C1、获取所述数据库中各个违规句子片段在其当前资讯内容中出现的频率,并据此获取各个违规句子片段在其当前资讯内容中违规频率。
由上,通过违规频率量化各个违规句子片段在其当前资讯内容中的违规情况,以直观向用户展示。
优选地,所述步骤C1之后还包括:
D1、根据所述各个违规句子片段在其当前资讯内容中违规频率及违规级别,获取各个资讯内容的资讯内容违规指数;并将所述资讯内容违规指数超过第二指定阈值的资讯内容标记为违规资讯内容,并将所述违规资讯内容及其对应的违规指数存储到所述数据库中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云天弈(北京)信息技术有限公司,未经云天弈(北京)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710901623.X/2.html,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法