[发明专利]一种基于内容的恐怖文本识别方法有效

申请号：	201410171360.8	申请日：	2014-04-25
公开（公告）号：	CN103942191B	公开（公告）日：	2018-04-27
发明（设计）人：	胡卫明;刘国旗;李兵	申请（专利权）人：	中国科学院自动化研究所
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	中科专利商标代理有限责任公司11021	代理人：	宋焰琴
地址：	100190 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于内容恐怖文本识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及计算机视觉领域，特别涉及一种基于内容的恐怖文本识别方法。

背景技术

随着互联网技术的飞速发展和广泛应用，网络上开始不断涌现出大量的恐怖信息，如恐怖小说、恐怖图片和恐怖视频等，这些对青少年特别是儿童的健康成长环境构成了严重地威胁。心理学家和生理学家的研究表明：恐怖信息对于儿童青少年恐惧心理的产生和进一步延续甚至恶化有着主要的促成作用，有88.8％的青少年将他们的恐怖症的病因归咎于过多的接触恐怖信息；过多的恐怖信息可能使人长期处于极度的恐惧和焦虑中，更甚者使人身心受到损害，且非常容易产生心理失衡或障碍，严重时出现病理症状，导致各种恐怖症的产生，甚至引发其它的精神疾病；过多的接触恐怖信息是恐惧症及其它心理病症的根源所在，同时，恐怖信息的泛滥导致儿童、青少年的恐惧被泛化，很容易从一个人传播到另一个人，进而影响他们的社会认知及未来人格的健康发展；过多的接触恐怖信息将影响孩子的阅读取向，影响儿童青少年的审美情趣，可能引发学习不良行为，甚至引发犯罪。

恐怖文本分类问题是一种情感分类问题。在情感分类中根据文本的不同，文本情感分析的对象主要可分为两大类：基于新闻评论的文本情感分析和基于产品的文本情感分析，而对恐怖文本的分析很少见。

特征提取是分类的前提，也是情感分类中最为关键的步骤。情感词(特征)的提取主要分为基于语料库和基于词典两种方法。基于语料库的情感词语提取主要是利用大语料库的统计特征，观察一些现象来挖掘语料库中的评价词语并判断极性。这些特征选择算法主要有互信息、文档频率、信息增益、开方检验等等多种。基于语料库的方法最大的优点在于简单易行，缺点则在于可利用的情感语料库有限，同时情感词在大语料库中的分布等现象并不容易归纳。基于辞典的情感词语的提取方法主要是使用辞典中的词语之间的词义联系来挖掘情感词语。这种方法对词典中词的准确度依赖很高，并且在构建词典的过程中很容易引入噪声。基于词典的方法的优点在于获取的情感词语的规模非常可观，但是由于很多词存在一词多义现象，构建情感词典往往含有较多的歧义词。

发明内容

(一)要解决的技术问题

本发明的目的在于提出一种准确率高的恐怖文本识别方法，解决提取有效的内容特征问题、快速高效的识别恐怖文本的问题。

(二)技术方案

为实现上述目的，本文提出了一种基于内容的恐怖文本识别方法，该方法包括以下主要步骤：

步骤1：对训练文本集合和待识别的文本进行预处理；

步骤2：利用预处理后的训练文本集合构建基于内容的文本分类模型；

步骤3：将预处理后的待识别文本作为文本分类模型的输入进行识别，文本分类模型的输出即为识别结果。

(三)有益效果

本发明所提出的基于内容的恐怖文本识别方法，利用分布相似度算法提取有效的高可信度的文本内容特征证词，分别针对文本标题和文本内容设计相互独立的文本标题分类器和文本内容分类器构建分类模型，能够快速有效的对待识别文本进行识别。

附图说明

图1是本发明中对待分类文本进行分类示意图。