[发明专利]一种基于微博的新词情感倾向判定方法有效
申请号: | 201510485811.X | 申请日: | 2015-08-10 |
公开(公告)号: | CN105138510B | 公开(公告)日: | 2018-05-25 |
发明(设计)人: | 严馨;周超;余正涛;洪旭东;徐广义;伏云发 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于微博的新词情感倾向判定方法,属于自然语言处理领域。本发明通过中文分词工具对微博语料进行分词,以分词结果中的停用词为分割点对分词后的语料进行分块,将每个块内相邻的字串两两组合,对组合后的字串频率进行统计,将频率高于阈值的词串作为新词候选串;根据汉语言学的成词规则以及邻接变化数的规则对新词候选串进行过滤取得新词;利用知网的情感词典,计算共现词与知网情感词的词语相似度;计算新词与共现词的相关度;构建图模型;利用标签传播算法得到新词的情感极性分布,通过构建线性分类器得到新词的情感倾向性。本发明对新词的情感倾向性的判定不仅能使博主很好的表达自己的观点,且能让用户准确的把握博主情感倾向。 | ||
搜索关键词: | 情感倾向 微博 判定 情感倾向性 分词 构建 语料 字串 自然语言处理 词语相似度 线性分类器 分词结果 两两组合 情感词典 情感极性 中文分词 分割点 情感词 停用词 图模型 相关度 邻接 词串 分块 算法 过滤 标签 汉语 传播 统计 | ||
【主权项】:
1.一种基于微博的新词情感倾向判定方法,其特征在于:通过中文分词工具对微博语料进行分词,并以分词结果中的停用词为分割点对分词后的语料进行分块,将每个块内相邻的字串两两组合,对组合后的字串频率进行统计,将频率高于阈值的词串作为新词候选串;根据汉语言学的成词规则以及邻接变化数的规则对新词候选串进行过滤取得新词;再利用知网的情感词典,计算共现词与知网情感词的词语相似度;计算新词与共现词的相关度;以新词和该新词的共现词为节点,在新词和它的共现词之间建立边,以新词与共现词的相关度为边的权重,构建图模型;利用标签传播算法得到新词的情感极性分布,最后通过构建线性分类器得到新词的情感倾向性;所述方法的具体步骤如下:Step1、通过中文分词工具对微博语料进行分词;Step2、以分词结果中的停用词为分割点对分词后的语料进行分块,并将每个块内相邻的字串两两组合,对组合后的字串频率进行统计,将频率高于阈值T的词串作为新词候选串;Step3、根据汉语言学的成词规则以及邻接变化数的规则对新词候选串进行过滤取得新词;Step4、利用知网的情感词典,计算共现词与知网情感词的词语相似度:Step4.1、找出微博语料中与新词共现的非停用词,作为共现词;Step4.2、利用知网情感词典,计算共现词与知网情感词的词语相似度,表示如下: 式中,Sim(si ,pj )表示共现词si 和知网情感词pj 之间的词语相似度,i和j表示任意的两个词的下标,m和n分别为共现词si 和知网情感词pj 的义项个数, 表示共现词si 的第m个义项, 表示知网情感词pj 的第n个义项,P表示知网情感词的集合; s i m ( u m s i , u n p j ) = 1 n 1 n 2 Σ l = 1 n 1 Σ f = 1 n 2 1 2 n 1 - l + 1 s i m ( r s i , r p j ) ]]> 式中, 表示共现词si 和知网情感词pj 的义项相似度,n1 和n2 分别为义项 和 中的属性个数, 为义项定义中不同位置的属性的权重值,l为1到n1 的一个变量,f为1到n2 的一个变量, 和
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510485811.X/,转载请声明来源钻瓜专利网。
- 上一篇:一种熔断装置
- 下一篇:具有上下对抽系统的激光切割机