[发明专利]一种基于微博的新词情感倾向判定方法有效
申请号: | 201510485811.X | 申请日: | 2015-08-10 |
公开(公告)号: | CN105138510B | 公开(公告)日: | 2018-05-25 |
发明(设计)人: | 严馨;周超;余正涛;洪旭东;徐广义;伏云发 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 情感倾向 微博 判定 情感倾向性 分词 构建 语料 字串 自然语言处理 词语相似度 线性分类器 分词结果 两两组合 情感词典 情感极性 中文分词 分割点 情感词 停用词 图模型 相关度 邻接 词串 分块 算法 过滤 标签 汉语 传播 统计 | ||
1.一种基于微博的新词情感倾向判定方法,其特征在于:通过中文分词工具对微博语料进行分词,并以分词结果中的停用词为分割点对分词后的语料进行分块,将每个块内相邻的字串两两组合,对组合后的字串频率进行统计,将频率高于阈值的词串作为新词候选串;根据汉语言学的成词规则以及邻接变化数的规则对新词候选串进行过滤取得新词;再利用知网的情感词典,计算共现词与知网情感词的词语相似度;计算新词与共现词的相关度;以新词和该新词的共现词为节点,在新词和它的共现词之间建立边,以新词与共现词的相关度为边的权重,构建图模型;利用标签传播算法得到新词的情感极性分布,最后通过构建线性分类器得到新词的情感倾向性;
所述方法的具体步骤如下:
Step1、通过中文分词工具对微博语料进行分词;
Step2、以分词结果中的停用词为分割点对分词后的语料进行分块,并将每个块内相邻的字串两两组合,对组合后的字串频率进行统计,将频率高于阈值T的词串作为新词候选串;
Step3、根据汉语言学的成词规则以及邻接变化数的规则对新词候选串进行过滤取得新词;
Step4、利用知网的情感词典,计算共现词与知网情感词的词语相似度:
Step4.1、找出微博语料中与新词共现的非停用词,作为共现词;
Step4.2、利用知网情感词典,计算共现词与知网情感词的词语相似度,表示如下:
式中,Sim(s
式中,
式中,
Step5、计算新词与新词的共现词的相关度:
式中,i和j表示任意的两个词的下标,R为自定义的窗口的大小,r为小于等于R的正数,表示两词在R窗口内的距离,w
Step6、以新词和该新词的共现词为节点,在新词和它的共现词之间建立边,以Step5中的相关度为边的权重,构建图模型;
Step7、利用词语相似度计算共现词s
式中,RK为阈值,s
Step8、标签传播算法确定新词情感倾向;
Step8.1、得到新词的极性分布,其目标函数如下:
其中:
式中,i和j表示任意的两个词的下标,q
Step8.2、将得到的新词的极性分布记为Q
式中,Q
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510485811.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种熔断装置
- 下一篇:具有上下对抽系统的激光切割机