[发明专利]一种基于微博的新词情感倾向判定方法有效

专利信息
申请号: 201510485811.X 申请日: 2015-08-10
公开(公告)号: CN105138510B 公开(公告)日: 2018-05-25
发明(设计)人: 严馨;周超;余正涛;洪旭东;徐广义;伏云发 申请(专利权)人: 昆明理工大学
主分类号: G06F17/27 分类号: G06F17/27;G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 650093 云*** 国省代码: 云南;53
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 情感倾向 微博 判定 情感倾向性 分词 构建 语料 字串 自然语言处理 词语相似度 线性分类器 分词结果 两两组合 情感词典 情感极性 中文分词 分割点 情感词 停用词 图模型 相关度 邻接 词串 分块 算法 过滤 标签 汉语 传播 统计
【权利要求书】:

1.一种基于微博的新词情感倾向判定方法,其特征在于:通过中文分词工具对微博语料进行分词,并以分词结果中的停用词为分割点对分词后的语料进行分块,将每个块内相邻的字串两两组合,对组合后的字串频率进行统计,将频率高于阈值的词串作为新词候选串;根据汉语言学的成词规则以及邻接变化数的规则对新词候选串进行过滤取得新词;再利用知网的情感词典,计算共现词与知网情感词的词语相似度;计算新词与共现词的相关度;以新词和该新词的共现词为节点,在新词和它的共现词之间建立边,以新词与共现词的相关度为边的权重,构建图模型;利用标签传播算法得到新词的情感极性分布,最后通过构建线性分类器得到新词的情感倾向性;

所述方法的具体步骤如下:

Step1、通过中文分词工具对微博语料进行分词;

Step2、以分词结果中的停用词为分割点对分词后的语料进行分块,并将每个块内相邻的字串两两组合,对组合后的字串频率进行统计,将频率高于阈值T的词串作为新词候选串;

Step3、根据汉语言学的成词规则以及邻接变化数的规则对新词候选串进行过滤取得新词;

Step4、利用知网的情感词典,计算共现词与知网情感词的词语相似度:

Step4.1、找出微博语料中与新词共现的非停用词,作为共现词;

Step4.2、利用知网情感词典,计算共现词与知网情感词的词语相似度,表示如下:

式中,Sim(si,pj)表示共现词si和知网情感词pj之间的词语相似度,i和j表示任意的两个词的下标,m和n分别为共现词si和知网情感词pj的义项个数,表示共现词si的第m个义项,表示知网情感词pj的第n个义项,P表示知网情感词的集合;

s i m ( u m s i , u n p j ) = 1 n 1 n 2 Σ l = 1 n 1 Σ f = 1 n 2 1 2 n 1 - l + 1 s i m ( r s i , r p j ) ]]>

式中,表示共现词si和知网情感词pj的义项相似度,n1和n2分别为义项中的属性个数,为义项定义中不同位置的属性的权重值,l为1到n1的一个变量,f为1到n2的一个变量,为义项的义元;

式中,表示共现词si和知网情感词pj的义元相似度,d是在层次体系中的路径距离,α是一个可调节的参数;

Step5、计算新词与新词的共现词的相关度:

w i j = Σ r = 1 R C ( v i , v j ) × N ( v i , r , v j ) ]]>

式中,i和j表示任意的两个词的下标,R为自定义的窗口的大小,r为小于等于R的正数,表示两词在R窗口内的距离,wij表示新词vi和新词vi的共现词vj的相关度,N(vi,r,vj)为:新词vi和新词vi的共现词vj在相关文档集合中R窗口内距离为r时的共现次数,C(vi,vj)=R-r+1为两词语间的共现强度;

Step6、以新词和该新词的共现词为节点,在新词和它的共现词之间建立边,以Step5中的相关度为边的权重,构建图模型;

Step7、利用词语相似度计算共现词si在y上的极性分布:

s i ( y ) = c o u n t ( S i m ( s i , p j + ) > R K ) c o u n t ( S i m ( s i , p j ) > R K ) y = + 1 0 y = 0 c o u n t ( S i m ( s i , p j - ) > R K ) c o u n t ( S i m ( s i , p j ) > R K ) y = - 1 ]]>

式中,RK为阈值,si(y)表示共现词的极性分布,i和j表示任意的两个词的下标,Sim表示词语相似度,为知网情感词中正倾向性的词,为知网情感词中负倾向性的词,count表示的是词的数量;

Step8、标签传播算法确定新词情感倾向;

Step8.1、得到新词的极性分布,其目标函数如下:

C = Σ v i ∈ V t v j ∈ K ( V t ) w i j | | q i ( y ) - s i ( y ) | | 2 + λ Σ v i ∈ V t | | q i ( y ) - γ | | 2 ]]>

其中:

| | q i ( y ) - s i ( y ) | | 2 = Σ y ( q i ( y ) - s i ( y ) ) 2 ]]>

| | q i ( y ) - γ | | 2 = Σ y ( q i ( y ) - γ ) 2 ]]>

式中,i和j表示任意的两个词的下标,qi(y)表示新词节点vi的极性分布,si(y)表示共现词vj的极性分布,γ和λ是自定义参数,Vt表示共现词集合,K(Vt)表示共现词Vt的K近邻词集合;

Step8.2、将得到的新词的极性分布记为Qn,构建线性分类器,得到新词的情感倾向:当新词的情感倾向为褒义的概率减去为贬义的概率大于阈值RT时,该新词情感倾向为1,即是褒义词;当新词的情感倾向为褒义的概率减去为贬义的概率的绝对值小于等于阈值RT时,该新词情感倾向为0,即是中性词;当新词的情感倾向为贬义的概率减去为褒义的概率大于阈值RT时,该新词情感倾向为-1,即是贬义词;

Q n = 1 Q n ( y = 1 ) - Q n ( y = - 1 ) > R T 0 | Q n ( y = 1 ) - Q n ( y = - 1 ) | ≤ R T - 1 Q n ( y = - 1 ) - Q n ( y = 1 ) > R T ]]>

式中,Qn(y=1)表示Qn为褒义的概率,Qn(y=-1)表示Qn为贬义的概率,RT为阈值。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510485811.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top