[发明专利]基于情感相关度的观点检索方法有效
申请号: | 201210337804.1 | 申请日: | 2012-09-12 |
公开(公告)号: | CN103049470A | 公开(公告)日: | 2013-04-17 |
发明(设计)人: | 刘瑞;安翼;陈君龙;宋浪 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京汲智翼成知识产权代理事务所(普通合伙) 11381 | 代理人: | 陈曦;景志 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 情感 相关 观点 检索 方法 | ||
技术领域
本发明涉及一种观点检索方法,尤其涉及一种基于情感相关度的观点检索方法,属于计算机信息数据处理技术领域。
背景技术
互联网的迅速发展和广泛普及,在很大程度上改变了人们的生活方式。人们不仅能够被动地接受信息,还能与外界进行交互。越来越多的用户在互联网上分享自己的观点或者体验,人们可以通过BBS、Blogs等网络媒介发表对各种事物的评论。这些评论信息数量庞大,具有强烈的主观性,表达方式相当自由,而且不规范。2010年7月由中国互联网信息中心发布的《中国互联网络发展状况统计报告》表明:博客应用、论坛/BBS的使用率均处于网络应用的前列。这些观点信息的迅速增长,为科研人员提供了广泛的应用和研究对象,并引起了产业界和研究者的广泛关注。
互联网中主观性的评论包含着大量具有情感倾向的信息。这些信息,无论对于普通的网络用户,还是对于生产商以及其他机构组织都有很重要的价值。如何从互联网的海量数据中高效快捷地检索出针对某一主题的主观评论性信息至关重要。观点检索是主题检索与文本倾向性分析相结合的工作,是指利用信息检索与情感分析的技术,寻找针对主题的观点评论等信息。观点检索的目标是互联网用户发表的带有情感倾向的评论信息。观点检索可以分为两个相关联的内容:一是主题检索,二是文本倾向性分析。文本的倾向性分析着眼于分析文本中说话者对某些特定主题的态度,主要研究文本中不同粒度的倾向性类别及强度。现有技术中包括基于语义的以及基于机器学习的文本倾向性研究,目前很多研究都是二者的结合。
目前,国内外针对观点检索的研究较多,而大部分的研究往往是把观点检索的过程分成两个独立的步骤:首先根据给定的查询相关的文章并得到主题相关性分数,然后对这些文章进行倾向性分析,并得到这些文章的倾向性得分,最后通过线性拟合融合两部分分数得到最终评分。针对观点检索的研究主要有两种方法,即目前通常使用的线性拟合方法和基于生成时语言模型的观点检索方法。
通常使用的线性拟合方法是将观点检索过程分为主题的相关文档检索和基于情感的文档重排序两个阶段。然后将上述两个阶段得到的相关分数进行一个线性拟合的过程。文本的倾向性强弱并不一定是针对查询主题的倾向性强弱。所以,这种仅仅基于文本倾向性和主题相关度的融合计算方法得到的检索结果并不能够准确地反映出查询结果针对查询主题的倾向性强弱。
另一种研究思路主要基于生成语言模型,将上述观点检索的两个阶段通过二次拟合或一次查询的过程合并为一个阶段。例如,利用生成语言模型进行针对主题的情感查询扩展等。但是,基于生成语言模型的方法也有一定的不足。对于词语之间的共现并不能够很好地反映查询主题与情感之间的紧密程度,尤其是当窗口很大的时候,这种问题则越发明显。
在专利号为ZL200810118668.0的中国发明专利中,公开了一种基于观点检索的信息检索文档的评分方法。它首先建立情感词列表,在列表中指定要在检索系统中使用的所有带有感情色彩的词,然后根据用户具体输入的查询,生成候选结果集合;其次在系统中计算文档与用户查询之间的相关性,得到每篇文档的相关性评分;然后根据文档中与查询词在一定距离范围内共同出现的情感词的次数,计算出系统中每篇文档的主客观性评分;再将一篇文档的相关性评分和主客观性评分进行基于二次函数(即相乘)的合并,得到合并后的文档最终评分;最后检索系统根据文档的最终评分对系统中的所有候选文档进行排序,并按照评分从大到小的次序显示给用户。
发明内容
针对现有技术所存在的不足,本发明所要解决的技术问题在于提供一种基于情感相关度的观点检索方法。该方法结合查询扩展词与主题的相关度,计算出文档与主题的文本相关度和情感相关度。
为实现上述的发明目的,本发明采用下述的技术方案:
一种基于情感相关度的观点检索方法,包括:
采用基于概率检索模型算法计算文档与查询主题的文本相关度;
采用基于词语依存关系路径的观点抽取方法计算文档与查询主题的情感相关度;
采用线性加权的方法综合文档与查询主题的文本相关度和文档与查询主题的情感相关度确定文档与查询的最终相关性。
其中较优地,文本相关度由下式计算:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210337804.1/2.html,转载请声明来源钻瓜专利网。