[发明专利]词语极性的判别方法和判别系统无效
申请号: | 201310165049.8 | 申请日: | 2013-05-07 |
公开(公告)号: | CN104142913A | 公开(公告)日: | 2014-11-12 |
发明(设计)人: | 张磊;张玄;尚磊 | 申请(专利权)人: | 株式会社日立制作所 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京永新同创知识产权代理有限公司 11376 | 代理人: | 杨胜军 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 词语 极性 判别 方法 系统 | ||
技术领域
本发明涉及对词语极性的判别,特别是新词的情感倾向判断。更具体的,本发明涉及一种对新词的情感倾向检测的方法与系统。
背景技术
随着SNS(Social Networking Services,社会性网络服务)不断流行,人们通过微博、论坛等平台,对人物、事件、产品发布各种各样的观点。为了有效处理这些信息,发现人们的态度意见,就需要进行文本情感分析。
然而,在个性化时代的今天,各种新词被不断创造,一些旧词被赋予新的含义,同时伴随各种网络事件的爆发也使得很多专有词语如人名等不断涌现并被赋予了强烈的感情色彩。如何来检测这些新词,或者新意词的情感倾向就成为把握舆论的客观问题。
为了解决上面提到的问题,有基于PMI的词语情感极性计算方法的现有技术:①专利文献:一种情感词典构建方法及系统[201210138364.7];②论文:基于Hownet和PMI的词语情感极性计算,计算机工程,2012.08。
上述公知技术主要采用PMI(点互信息)确定词的极性。该方法首先选取一些基准词,这些基准词有褒义的,也有贬义的。通过计算新词与这些基准词在语料库中的共现概率,确定新词的褒贬义倾向。假设基准褒义词为WordSet1={commendatroy1,commendatroy2,…,commendatroyN},贬义词为WordSet2={derogatory1,derogatory2,…,derogatoryN},则对于某个词Word,基于PMI的词语极性SO_PMI(Word)为:
PMI的计算公式:其中,P(Word1)表示Word1在语料库中独立出现的概率,P(Word2)表示Word2在语料库中独立出现的概率;P(Word1&Word2)表示Word1与Word2同时在语料库中出现的概率。
现有技术
专利文献1一种情感词典构建方法及系统[201210138364.7]
非专利文献[1]基于Hownet和PMI的词语情感极性计算,计算机工程,2012.08
发明要解决的课题
然而,现有的公知技术中存在以下问题:
首先,对于新词,尤其是在网络上突然新爆发的词,在以往语料库中出现的概率极小,甚至没有。这样在计算共现概率时,可能会得到PMI为0的结果,从而判别失效。
其次,由于网络上,新词往往伴随新词出现,它们互为补充互为诠释,比如新词“山寨”(负向)与之高共现的词是“雷人”本身也是一个新词(负向),而公知技术中,获得与之高共现的普通词相对匮乏,易造成判断失误。再比如,由于反讽及自嘲的情况,“屌丝”与之高共现的词语是“高、富、帅”,用公知技术反而会得到完全相反的极性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社日立制作所,未经株式会社日立制作所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310165049.8/2.html,转载请声明来源钻瓜专利网。