[发明专利]一种民航安保舆情情感分析方法有效
申请号: | 201611062208.1 | 申请日: | 2016-11-25 |
公开(公告)号: | CN106598944B | 公开(公告)日: | 2019-03-19 |
发明(设计)人: | 韩萍;李杉;贾云飞;牛勇钢 | 申请(专利权)人: | 中国民航大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/38;G06F16/36;G06F16/35 |
代理公司: | 天津才智专利商标代理有限公司 12108 | 代理人: | 庞学欣 |
地址: | 300300 天*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 民航 安保 舆情 情感 分析 方法 | ||
1.一种民航安保舆情情感分析方法,所述的民航安保舆情情感分析方法包括按顺序进行的下列步骤:
(1)对互联网上包含民航安保舆情关键词的微博文本进行检索、预处理和分词操作;
(2)构建用于微博文本语义分析所需的各类词典,构建方法分为选取现有词典和自主构造的方式;
(3)根据上述步骤(2)构建的词典,对上述经步骤(1)分词后的微博进行打分,得到该微博的情感分值;
(4)根据步骤(3)中得到的情感分值对微博进行主客观判别,用于过滤新闻报道在内的客观微博,保留带有主观性的微博,最终得到该微博对民航安全的威胁度分值;
(5)根据步骤(4)得到的威胁度分值判定微博文本中的言论对民航安全的威胁度等级,方法是当威胁度分值D>0时,该微博文本表达的是积极情感,属于安全言论,因此不进行威胁度等级判定;当威胁度分值D≤0时,判定该微博文本含有民航安保舆情关键词,并表达的是消极情感,需要重点关注,然后根据下面的威胁度等级标准对微博文本进行威胁度等级判定;威胁度等级标准是对现有的微博文本进行测试而得到的,具体如下:
1)-4.5≤D≤0时为低等威胁度;
2)-7≤D<-4.5时为中等威胁度;
3)-10≤D<7时为高等威胁度;
然后筛选出具有高等威胁度等级的重点人员,并作为预警信息;
其特征在于:在步骤(3)中,所述的根据上述步骤(2)构建的词典,对上述经步骤(1)分词后的微博进行打分,得到该微博的情感分值的方法包括下列步骤:
1)从上述经步骤(1)分词后的微博文本中提取或确定情感词:
提取情感词的方法是将上述微博文本中经过分词后得到的词语与上述情感词典和网络热词词典进行匹配,若某一词语存在于上述两个词典中,则选取为情感词;
确定情感词的方法是对没有出现在情感词典和网络热词词典中的词语采用语义相似度方法进行;具体方法是对于两个词语w1和w2,如果词语w1有n个义项或概念:x1,x2…,xn,词语w2有m个义项或概念:y1,y2…,ym,规定词语w1和w2的相似度是各个义项或概念相似度的最大值,即:
两个义原的相似度计算公式为:
其中,λ是正的可变参数;d(x1,y2)表示义原x1和义原y2在层次树中的距离;
将词语w与正面情感词典中每个种子词按式(1)及式(2)进行相似度计算得到该词与正面种子词的相似度,再将词语w与负面情感词典中每个种子词进行相似度计算得到该词与负面种子词的相似度,通过比较它们之间的均差值,最终得到词语w的情感倾向值,计算公式如下:
其中,pi表示某一正面情感种子词,nj表示某一负面情感种子词;情感倾向值Sw的取值范围为(-1,1);设定阈值T,将计算出的情感倾向值Sw与阈值T进行比较,以判定词语w是否属于情感词;当|Sw|>T时,判定词语w为情感词,该情感词的强度定为10·Sw;
2)确定微博中包含上述情感词的每一微博子句的文本情感得分;
2.1)若微博子句中包含情感词,且在其之前出现属于否定词典中的否定词或修饰词典中的修饰词时,按以下几种情况计算该微博子句的文本情感得分Sa:
a)程度副词+情感词,情感词强度随副词强度改变,文本情感得分为:
Sa=Ma·ps·pa (4)
b)否定词+情感词,情感词的极性按照否定词的个数而改变,文本情感得分为:
Sa=(-1)n·ps·pa (5)
c)程度副词+否定词+情感词,情感词极性反转,并且强度随副词强度改变,文本情感得分为:
Sa=(-1)·Ma·ps·pa (6)
d)否定词+程度副词+情感词,由于否定出现在程度副词之前,情感词极性反转后,情感词强度较直接否定有所减弱,引入第一权重因子z1=0.5,文本情感得分为:
Sa=(-1)·Ma·ps·pa·z1 (7)
其中,ps表示情感词的强度,pa表示情感词极性,Ma表示程度副词的强度:
2.2)若微博子句中包含连词词典中的转折连词,该微博子句属于复合句,考虑到句间的情感极性转移,按以下几种情况计算该微博子句的文本情感得分:
a)转折关系:当微博子句中出现“但是”、“然而”在内的语义反转词汇时,前一微博子句的极性将会发生改变,这两个微博子句的整体极性将与后一个微博子句相同,引入第二权重因子z2=-1,文本情感得分为:
Sen=z2Sen1+Sen2 (8)
b)递进关系:前后两个微博子句极性相同,强度增强,引入第三权重因子z3=1.5,文本情感得分为:
Sen=z3(Sen1+Sen2) (9)
c)让步关系:后一个微博子句的极性会发生反转,整句的极性与前一微博子句相同,引入第四权重因子z4=-1,文本情感得分为:
Sen=Sen1+z4Sen2 (10)
其中,Sen1表示前一个微博子句的文本情感得分,Sen2表示后一个微博子句的文本情感得分;
3)确定微博中表情符号得分;
根据表情符号词典,查出该微博中所有表情符号的极性及强度,并记录每个表情符号的个数;令Ni为第i个表情符号的个数,ei为该表情符号的强度,pi为该表情符号的极性,则微博中的表情符号得分计算公式为:
4)将上述的微博文本情感得分和表情符号得分进行加权求和,得到每一条微博的情感分值,公式如下:
S1=α·scoreemo+β·scoretext (12)
其中,α、β为可调权值,取值范围是(0,1),α+β=1,通过交叉测试集验证能够选择正确分类概率最大时的α、β值;scoretext为该微博的文本情感得分,为各微博子句文本情感得分的平均值。
2.根据权利要求1所述的民航安保舆情情感分析方法,其特征在于:在步骤(4)中,所述的根据步骤(3)中得到的情感分值对微博进行主客观判别,用于过滤新闻报道在内的客观微博,保留带有主观性的微博,最终得到该微博对民航安全的威胁度分值的方法是:
首先采用以下方法对微博文本进行主客观判别:
1)对于情感分值S1=0的微博,若其中包含第一人称名词或代词,则认为是主观微博文本,否则为客观微博文本;
2)对于情感分值S1≠0的微博,若其中包含新闻报道的特殊谓语用词,或微博文本中的转发次数至少2次,则认为是客观微博文本,否则是主观微博文本;
将客观微博文本的威胁度分值设定为0,并且不进行威胁度分值计算,只计算主观微博的威胁度分值,计算公式如式(13)所示:
其中,D表示威胁度分值,范围在[-10,10]之间;S1表示微博文本的情感分值;S2<w1,w2>为民航安保舆情威胁分数,w1表示地点词语,w2表示行为词语;
民航安保舆情威胁分数S2<w1,w2>的计算过程如下:查找微博文本中的行为词语w2,然后判断该行为词语的类型;当该行为词语为直接型时,民航安保舆情威胁分数S2<w1,w2>的值取该行为词语的强度;当该行为词语为间接型时,判断该微博文本中是否同时存在地点词语,如果同时存在,则民航安保舆情威胁分数S2<w1,w2>的值取该行为词语的强度,如果不同时存在,威胁分数S2<w1,w2>为0。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国民航大学,未经中国民航大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611062208.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:智能藏文自动分词系统
- 下一篇:模板检验方法及装置