[发明专利]一种针对不良信息的基于情感倾向性分析的文本过滤方法无效
申请号: | 200910091747.1 | 申请日: | 2009-08-27 |
公开(公告)号: | CN101639824A | 公开(公告)日: | 2010-02-03 |
发明(设计)人: | 胡昌振;姚淑萍;芦锦辉;张欣 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F17/21 | 分类号: | G06F17/21;G06F17/30 |
代理公司: | 北京理工大学专利中心 | 代理人: | 张利萍 |
地址: | 100081北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 针对 不良信息 基于 情感 倾向性 分析 文本 过滤 方法 | ||
1.一种针对不良信息的基于情感倾向性分析的文本过滤方法,其特征在于:首先,建立情感词典;然后,在建立好情感词典的基础上,针对不良信息文本进行过滤,其具体实现步骤如下:
步骤一、文本预处理
首先,对文本进行预处理,包括对中文进行分词处理、去除停用词和计算特征权值,得到文本的特征向量;
步骤二、基于内容的文本分析
在步骤一的基础上对文本进行基于内容的分析,包括过滤模型的训练,提取文本主题特征和对主题特征进行匹配,获得分析结果;
步骤三、基于情感倾向性的文本分析
在步骤一的基础上,采用基于情感词加权的方法对文本进行情感分析;具体操作步骤为:
第1步:提取文本情感特征;
根据建立的情感特征词典,从文本特征向量中提取文本情感特征,并且记录每个情感特征的权值和情感分量值;
第2步:确定“情感阈值”;在“情感阈值”范围内,表示不含有情感倾向性;否则,表示具有情感倾向性;
第3步:计算文本情感倾向;
根据每个情感特征词的权值和从情感词典中获取的该词情感倾向分值来计算文本的情感倾向,根据事先定义的“情感阈值”来确定文本的情感倾向性;文本的情感倾向性的计算公式为:
其中,Orientation(d)表示文本d的情感倾向值,wi表示情感特征词的权值,vi表示情感特征的情感倾向分值;Orientation(d)大于“情感阈值”,则认为文本情感倾向是肯定的、正面的;Orientation(d)小于“情感阈值”,则认为其情感倾向是否定的、负面的;
步骤四、综合判断
在步骤二和步骤三的基础上,进行综合判断,即根据内容分析结果和情感分析结果确定一篇文本是否为需要过滤掉的文本;其具体判断标准为:如果步骤二的基于内容的文本分析的结果认为是需要过滤的文本,并且步骤三的情感分析的结果认为其情感倾向是否定的、负面的,则认为该文本为不良信息文本,加以过滤;否则,不过滤。
2.根据权利要求1所述的一种针对不良信息的基于情感倾向性分析的文本过滤方法,其特征在于:建立情感词典的方法为:根据HowNet中文词表中标注“良”、“莠”属性的词汇,从《现代汉语词典》中挑选出2000多个具有感情色彩的词汇,其中主要是形容词和名词,构成一个情感词词典;对于情感词词典中的每个词,分配一个情感分量值表示它的情感倾向。
3.根据权利要求2所述的所述的一种针对不良信息的基于情感倾向性分析的文本过滤方法,其特征在于:情感分量值的范围在-3到+3之间;其中,0到3之间表示“正面的”或“健康的”情感倾向分值;-3到0表示“反面的”或“不良的”情感倾向分值;情感倾向分值的绝对值表示情感词的情感表示强度。
4.根据权利要求1所述的一种针对不良信息的基于情感倾向性分析的文本过滤方法,其特征在于:步骤三第2步中的“情感阈值”设定为0或包含0在内的某一区间。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910091747.1/1.html,转载请声明来源钻瓜专利网。