[发明专利]一种针对不良信息的基于情感倾向性分析的文本过滤方法无效
申请号: | 200910091747.1 | 申请日: | 2009-08-27 |
公开(公告)号: | CN101639824A | 公开(公告)日: | 2010-02-03 |
发明(设计)人: | 胡昌振;姚淑萍;芦锦辉;张欣 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F17/21 | 分类号: | G06F17/21;G06F17/30 |
代理公司: | 北京理工大学专利中心 | 代理人: | 张利萍 |
地址: | 100081北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种针对不良信息的基于情感倾向性分析的文本过滤方法,属于计算机应用技术领域,适用于内容过滤防火墙、内容过滤网关等。该方法在基于文本内容分析的基础上,加入文本情感分析方法,根据文本的主题和情感倾向性判断文本是否为不良信息文本,从而提高不良信息文本过滤的准确性。 | ||
搜索关键词: | 一种 针对 不良信息 基于 情感 倾向性 分析 文本 过滤 方法 | ||
【主权项】:
1.一种针对不良信息的基于情感倾向性分析的文本过滤方法,其特征在于:首先,建立情感词典;然后,在建立好情感词典的基础上,针对不良信息文本进行过滤,其具体实现步骤如下:步骤一、文本预处理首先,对文本进行预处理,包括对中文进行分词处理、去除停用词和计算特征权值,得到文本的特征向量;步骤二、基于内容的文本分析在步骤一的基础上对文本进行基于内容的分析,包括过滤模型的训练,提取文本主题特征和对主题特征进行匹配,获得分析结果;步骤三、基于情感倾向性的文本分析在步骤一的基础上,采用基于情感词加权的方法对文本进行情感分析;具体操作步骤为:第1步:提取文本情感特征;根据建立的情感特征词典,从文本特征向量中提取文本情感特征,并且记录每个情感特征的权值和情感分量值;第2步:确定“情感阈值”;在“情感阈值”范围内,表示不含有情感倾向性;否则,表示具有情感倾向性;第3步:计算文本情感倾向;根据每个情感特征词的权值和从情感词典中获取的该词情感倾向分值来计算文本的情感倾向,根据事先定义的“情感阈值”来确定文本的情感倾向性;文本的情感倾向性的计算公式为: 其中,Orientation(d)表示文本d的情感倾向值,wi表示情感特征词的权值,vi表示情感特征的情感倾向分值;Orientation(d)大于“情感阈值”,则认为文本情感倾向是肯定的、正面的;Orientation(d)小于“情感阈值”,则认为其情感倾向是否定的、负面的;步骤四、综合判断在步骤二和步骤三的基础上,进行综合判断,即根据内容分析结果和情感分析结果确定一篇文本是否为需要过滤掉的文本;其具体判断标准为:如果步骤二的基于内容的文本分析的结果认为是需要过滤的文本,并且步骤三的情感分析的结果认为其情感倾向是否定的、负面的,则认为该文本为不良信息文本,加以过滤;否则,不过滤。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200910091747.1/,转载请声明来源钻瓜专利网。