[发明专利]一种针对不良信息的基于情感倾向性分析的文本过滤方法无效
申请号: | 200910091747.1 | 申请日: | 2009-08-27 |
公开(公告)号: | CN101639824A | 公开(公告)日: | 2010-02-03 |
发明(设计)人: | 胡昌振;姚淑萍;芦锦辉;张欣 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F17/21 | 分类号: | G06F17/21;G06F17/30 |
代理公司: | 北京理工大学专利中心 | 代理人: | 张利萍 |
地址: | 100081北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 针对 不良信息 基于 情感 倾向性 分析 文本 过滤 方法 | ||
技术领域
本发明涉及一种针对不良信息的基于情感倾向性分析的文本过滤方法,属于计算机应用技术领域,适用于内容过滤防火墙、内容过滤网关等。
背景技术
随着互联网的迅速发展和广泛使用,海量网络信息不断涌现出来,这些信息的内容良莠不齐,其中不乏色情、邪教、赌博等不良信息。为此人们越来越多的采用信息过滤的方法有选择地传播和利用信息。由于目前网上信息的表现形式大多为文本,文本过滤技术得到了较快发展。
早期的文本过滤技术主要是机械式的,即单纯的关键字匹配方法。这种文本过滤方法简单适用,不受文本所属领域的限制,文本过滤的质量比较稳定。但是其缺点是文本过滤的准确性不高。
随后,基于内容分析的文本过滤方法被提出并得到了广泛的研究。基于内容分析的文本过滤主要是根据文本的内容主题将文本分为相关信息和不相关信息两类,准确性明显高于机械式的文本过滤。
基于内容分析的文本过滤方法一般分为两个过程,训练过程和分析过程。其基本原理为:首先创建过滤模型;然后执行训练过程,利用大量的训练文本训练过滤模型,直至模型的过滤精度满足需求。最后是使用训练好的模型对实际待测文本进行过滤分析,即将待测文本表示为与过滤模型相同的方式,根据匹配规则,返回符合兴趣模板的文本。如图1所示。
基于内容分析的文本过滤方法具体操作步骤如下:
步骤一、模型训练过程
第1步:针对训练文本,进行文本预处理,包括对文本进行分词、去除停用词以及计算特征权值。其中,对文本进行分词常用的方法有正向最大匹配法、基于统计的分词法等;停用词是指介词、冠词等语义内容很少的词,这类词对表达文章的内容主题没有什么贡献,仅起到一个语法元素的作用,如“的”、“啊”、“哦”等。
第2步:文本特征提取
经过文本预处理,从训练样本中选出具有代表性的文本作为提取源,提取能够表示该类文本特征的特征词,根据权重计算函数对每个特征词做权值计算,得到文本的特征向量,表示为D=(w1,w2,…,wn),其中w1,w2,…,wn为各特征词的权重。
第3步:特征阈值估计
预先估计特征词权重的阈值,以便在过滤模型训练时用以进行特征词的选择。
第4步:建立过滤模型
过滤模型是特征词的一个集合,存放的是反映某个特定类别文本信息的典型特征词,包括能反映某特定类别信息的人名、专属词等具有典型意义的特征词。例如,在过滤宣扬法轮功信息的过滤模型中,可将“法轮功”、“护法”等词作为特征词存入过滤模型。过滤模型的特征词表包含如下内容:特征词和权重。
过滤模型的构建是离线进行的,需要经过多次循环训练才能完成。首先根据给定的特征阈值,将权值在设置范围内的特征词提取出来,按过滤模型的存储格式将这个特征词存入该类别的过滤模型中,然后利用该模型对训练文本进行分类,如果分类结果满足精度要求,则完成过滤模型的建立,否则,重新调整特征阈值,重复以上过程,直至精度满足要求。
步骤二、文本分析过程
第1步:文本特征提取
根据过滤模型特征词表,从待测文本的特征表示形式中提取文本的特征。将文本表示成与过滤模型相同的形式。
第2步:主题特征匹配
以过滤模型的向量与待过滤文本之向量的夹角余弦,来衡量文本同用户需求的相似度,并根据事先约定“过滤阈值”来确定是否滤除。文本(用d表示)与过滤模型(用u表示)之间的相似度的计算公式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910091747.1/2.html,转载请声明来源钻瓜专利网。