[发明专利]一种基于迁移学习的话题自适应的微博情感分析方法有效
申请号: | 201711257802.0 | 申请日: | 2017-12-04 |
公开(公告)号: | CN108021660B | 公开(公告)日: | 2020-05-22 |
发明(设计)人: | 童咏之;贾焰;周斌;杨树强;李爱平;黄九鸣;韩伟红;江荣;全拥;邓璐;刘强;张涛;胡玥;刘心 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36 |
代理公司: | 北京中济纬天专利代理有限公司 11429 | 代理人: | 陆薇薇 |
地址: | 410073 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 迁移 学习 话题 自适应 情感 分析 方法 | ||
本发明公开了一种基于迁移学习的话题自适应的微博情感分析方法,其涉及社交媒体的数据挖掘技术领域,本发明方法首先结合临床心理学情绪检测表抽取情感词初始化情感分析向量,其次利用话题信息之间的语义相似度,话题域之间的领域特征分布相似度,以及实例之间的特征分布相似度,作为衡量外源域实例数据的可迁移性的度量标准。最后基于设计的方法,设计了在实际应用中使用该方法进行微博情感分析的策略。本发明能够解决特定话题下的微博数据情感标注缺失的问题,从而能够训练适应话题的情感分类器。这种方法不直接作用于分类模型本身,而是改变了训练样本的分布,进一步保证分类模型的独立同分布假设,从而使得情感分类模型能够取得更好的效果。
技术领域
本发明属于社交媒体数据挖掘领域,尤其涉及一种基于迁移学习的话题自适应的微博情感分析方法。
背景技术
互联网日益在大众生活中扮演着越来越重要的角色。人们通过网络联系他人,展示自己,分享自己的状态和见解是当前最为流行的互动方式。由此衍生出来的各类交友网站、论坛、贴吧、微博及微信,均以信息发布平台作为媒介,构建用于社会互联性质的应用服务。用户可以分享自己即刻的心情,也能就某一公共话题或社会现象发表自己的看法。作为近年来快速发展的新兴社会化媒体发布平台,微博凭借其短小灵活和快速的优点,受到广大互联网用户的推崇。微博虽微,但其传播信息的能力却十分强大。每天都有大量的信息通过微博产生和传播。官方数据显示,仅新浪微博用户平均每天发布的微博数量就高达一亿多条。除此之外,微博已成为继QQ、MSN等传统网络联系工具后的用户沟通新方式。微博强大的影响力也吸引着越来越多的人成为新加入的微博用户。从最初的主打年轻人市场的互联网应用服务到如今蔓延至社会各阶层和组织日常重要生活工具,其覆盖人群仍在不断扩大。用户数量增长迅速的同时,其应用领域也不断得到扩展。从最初小范围的Geek应用到如今已成为渗透至社会各领域的主流应用。无论你在现实生活中的身份如何,你都可以通过微博真实表达自己的理念,使得言语表达更加自由、随性。用户间的互粉既可以加深老朋友间的情谊,也能够结识和了解素昧谋面的陌生好友。企业能通过微博发布自己最新的动态来更加及时地传达消息给老顾客并吸引新顾客。政府和机构也能让群众更全面详实了解其运作和流程。如此之多传统博客所不具备的特点,是微博成为大众新宠的重要原因之一。如此庞大的信息流动看似琐碎而繁杂,可隐藏其中的巨大潜在价值却不容小视。用户的发言和用户间的互动,往往包含着当前时刻该用户的情感表达,于是便可以对其发言内容作情感分析。通过整合情感分析的结果,用户可以扩大自己的选择范围,必要时候可以保障和维护自身利益;企业可以了解消费者的心理需求,有助于作出积极的应对措施,提升自己的品牌效益;政府机关能够知晓民众意见,掌握民众心理,有助于进行舆情监控和妥善处理社会问题。
情感分析,又称意见挖掘,是对带有情感色彩的主观性文本进行分析、处理归纳和推理的过程。目前情感分析的主要研究点在于对文本的倾向性进行分析,即挖掘网络文本内容蕴含的各种情感、信念、态度、意见和情绪等属性信息。迄今为止,语气挖掘方面的研究大体可以分为两类:一类是语气挖掘的基础理论研究,包括词的倾向性分析、句子的倾向性分析、篇章的倾向性分析;另一类是语气挖掘的应用研究,如产品比较、语气摘要、观点抽取等。
目前国内外对于文本倾向性的研究从方法上可大致分为两类:基于统计的文本倾向性研究方法和基于语义规则的文本倾向性研究方法。而基于语义规则的方法天然具有局限性,无法取得进一步的准确度,目前研究已经较少。基于统计监督学习的方法是目前的主流方法。
基于统计的文本倾向性研究方法的采用监督学习的方法,是将已标注情感标签的文档作为训练集,再通过机器学习的方法构造一个褒贬两类分类器。最后使用构造好的褒贬两类分类器对待分析文档进行分类,从而识别出该文档的倾向性。Pang等使用标准的机器学习技术对文本分类工作进行了研究。比较了朴素贝叶斯(Native Bayes)、最大熵(Maximum Entropy)及支持向量机(Support Vector Machines)方法文本分类上的效果。之后,他提出了将分类结果按照语义倾向性强度进行细分的方法,并通过一系列的实验证明了其方法的可行性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711257802.0/2.html,转载请声明来源钻瓜专利网。