[发明专利]一种基于微博的新词情感倾向判定方法有效

专利信息
申请号: 201510485811.X 申请日: 2015-08-10
公开(公告)号: CN105138510B 公开(公告)日: 2018-05-25
发明(设计)人: 严馨;周超;余正涛;洪旭东;徐广义;伏云发 申请(专利权)人: 昆明理工大学
主分类号: G06F17/27 分类号: G06F17/27;G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 650093 云*** 国省代码: 云南;53
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种基于微博的新词情感倾向判定方法,属于自然语言处理领域。本发明通过中文分词工具对微博语料进行分词,以分词结果中的停用词为分割点对分词后的语料进行分块,将每个块内相邻的字串两两组合,对组合后的字串频率进行统计,将频率高于阈值的词串作为新词候选串;根据汉语言学的成词规则以及邻接变化数的规则对新词候选串进行过滤取得新词;利用知网的情感词典,计算共现词与知网情感词的词语相似度;计算新词与共现词的相关度;构建图模型;利用标签传播算法得到新词的情感极性分布,通过构建线性分类器得到新词的情感倾向性。本发明对新词的情感倾向性的判定不仅能使博主很好的表达自己的观点,且能让用户准确的把握博主情感倾向。
搜索关键词: 情感倾向 微博 判定 情感倾向性 分词 构建 语料 字串 自然语言处理 词语相似度 线性分类器 分词结果 两两组合 情感词典 情感极性 中文分词 分割点 情感词 停用词 图模型 相关度 邻接 词串 分块 算法 过滤 标签 汉语 传播 统计
【主权项】:
1.一种基于微博的新词情感倾向判定方法,其特征在于:通过中文分词工具对微博语料进行分词,并以分词结果中的停用词为分割点对分词后的语料进行分块,将每个块内相邻的字串两两组合,对组合后的字串频率进行统计,将频率高于阈值的词串作为新词候选串;根据汉语言学的成词规则以及邻接变化数的规则对新词候选串进行过滤取得新词;再利用知网的情感词典,计算共现词与知网情感词的词语相似度;计算新词与共现词的相关度;以新词和该新词的共现词为节点,在新词和它的共现词之间建立边,以新词与共现词的相关度为边的权重,构建图模型;利用标签传播算法得到新词的情感极性分布,最后通过构建线性分类器得到新词的情感倾向性;所述方法的具体步骤如下:Step1、通过中文分词工具对微博语料进行分词;Step2、以分词结果中的停用词为分割点对分词后的语料进行分块,并将每个块内相邻的字串两两组合,对组合后的字串频率进行统计,将频率高于阈值T的词串作为新词候选串;Step3、根据汉语言学的成词规则以及邻接变化数的规则对新词候选串进行过滤取得新词;Step4、利用知网的情感词典,计算共现词与知网情感词的词语相似度:Step4.1、找出微博语料中与新词共现的非停用词,作为共现词;Step4.2、利用知网情感词典,计算共现词与知网情感词的词语相似度,表示如下:式中,Sim(si,pj)表示共现词si和知网情感词pj之间的词语相似度,i和j表示任意的两个词的下标,m和n分别为共现词si和知网情感词pj的义项个数,表示共现词si的第m个义项,表示知网情感词pj的第n个义项,P表示知网情感词的集合; s i m ( u m s i , u n p j ) = 1 n 1 n 2 Σ l = 1 n 1 Σ f = 1 n 2 1 2 n 1 - l + 1 s i m ( r s i , r p j ) ]]>式中,表示共现词si和知网情感词pj的义项相似度,n1和n2分别为义项中的属性个数,为义项定义中不同位置的属性的权重值,l为1到n1的一个变量,f为1到n2的一个变量,
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201510485811.X/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

tel code back_top