[发明专利]一种跨领域文本情感倾向性分析方法有效

专利信息
申请号: 200910242427.1 申请日: 2009-12-11
公开(公告)号: CN101714135A 公开(公告)日: 2010-05-26
发明(设计)人: 吴琼;谭松波;段洣毅;程学旗 申请(专利权)人: 中国科学院计算技术研究所
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 北京泛华伟业知识产权代理有限公司 11280 代理人: 王勇
地址: 100190 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 领域 文本 情感 倾向性 分析 方法
【说明书】:

技术领域

发明涉及模式识别领域,具体涉及一种文本分析方法。

背景技术

近年来,随着互联网快速发展,论坛、博客等网络交流平台不断涌现, 人们越来越习惯于在网上发表主观性的言论,这些言论用于表达自己对于 日常事件、产品、政策等的观点和看法,这使得网上存在大量带有情感倾 向性的文本。那么如何对这些有主观情感的文本进行分类,判断其是正面 还是负面,是持支持态度还是反对态度,这就引出了文本分类领域一个重 要的研究方向----情感倾向性分析问题。该问题有很多实际应用,成为引起 越来越广泛关注的研究问题。

随着信息量的急速增加、新领域的不断涌现,人们需要在越来越多的 新领域里进行情感倾向性分析,而在新领域里重新进行人工标注是个费时 费力的事情。因此要尽量基于已经标注好的数据对新领域进行分析,这使 得跨领域的倾向性分析具有重大意义。

近几年来,研究者们已经在跨领域倾向性分析问题上取得了一些进 展。然而,现有的方法和系统往往只根据已标注文本对新领域文本进行倾 向性分析,而只根据文本进行倾向性分析是片面的,不能利用词的知识提 高倾向性分析的精度,这往往导致精度不高。

因此,需要一个统一的模型框架有机地融合情感词的知识,以提高倾 向性分析的精度。

发明内容

本发明要解决的技术问题是提供一种精度高的跨领域文本情感倾向 性分析方法。

根据本发明的一个方面,提供了一种跨领域文本情感倾向性分析方 法,包括下列步骤:

1)确定源领域和目标领域中文本与词的初始情感分;

2)根据测试文本集和测试词集分别与所有词集和所有文本集的关系 建立测试文本集DU与测试词集WU和训练词集WL间的相似矩阵M、测试 词集WU与测试文本集DU和训练文本集DL间的相似矩阵N和测试词集 WU与所有词集之间的相似矩阵V中的一个或多个,计算一个或多个相似 矩阵的归一化矩阵和邻域矩阵;

3)利用所述源领域和目标领域中文本与词的初始情感分和所述一个 或多个相似矩阵的邻域矩阵迭代计算测试文本和测试词的情感分并进行 归一化。

在上述方法中,所述步骤2)还包括根据测试文本集和所有文本集的关 系建立测试文本集DU和所有文本集之间的相似矩阵U,并计算所述相似 矩阵U的归一化矩阵和邻域矩阵;

所述步骤3)中所述迭代计算测试文本和测试词的情感分还利用所述 相似矩阵U的邻域矩阵。

在上述方法中,所述步骤2)中建立所述相似矩阵M和/或N,并计算 其归一化矩阵和邻域矩阵的步骤进一步包括:

以测试文本、测试词、训练文本和训练词为结点,测试词和训练词在 测试文本和训练文本中的重要性为边的权重建立文本-词情感图,根据所 述文本-词情感图建立相似矩阵M和/或N;

将所述相似矩阵M和/或N归一化;

将归一化矩阵的每一行中属于不同领域的两部分分别进行降序排列 得到矩阵和/或

由所述矩阵的元素在所述相似矩阵M中的列号构成邻域矩阵Mn 中的元素Mnij,由所述矩阵的元素在所述相似矩阵N中的列号构成邻 域矩阵Nn中的元素Nnij

在上述方法中,所述步骤2)中建立所述相似矩阵V,并计算其归一化 矩阵和邻域矩阵的步骤进一步包括:

以测试词和训练词为结点,词间语义相似性为边的权重建立词-词情 感图,根据所述词-词情感图建立相似矩阵V;

将归一化矩阵的每一行中属于不同领域的两部分分别进行降序排列 得到矩阵

由所述矩阵的元素在所述相似矩阵V中的列号构成邻域矩阵Vn 中的元素Vnij

在上述方法中,所述词间语义相似性为基于互信息法或隐含语义分析 法计算。

在上述方法中,所述步骤2)中建立所述相似矩阵U,并计算其归一化 矩阵和邻域矩阵的步骤进一步包括:

以测试文本和训练文本为结点,文本间内容相似度为边的权重建立文 本-文本情感图,根据所述文本-文本情感图建立相似矩阵U;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200910242427.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top