[发明专利]一种文本倾向性分析方法及基于该方法的商品评论倾向判别器在审
申请号: | 201310355704.6 | 申请日: | 2013-08-13 |
公开(公告)号: | CN103455562A | 公开(公告)日: | 2013-12-18 |
发明(设计)人: | 董丽丽;赵繁荣;张翔;王茹 | 申请(专利权)人: | 西安建筑科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27;G06Q30/02 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 710055 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 倾向性 分析 方法 基于 商品 评论 倾向 判别 | ||
技术领域
本发明涉及文本的倾向性分析技术领域,尤其是涉及一种文本倾向性分析方法及基于该方法的面向论坛的商品评论倾向判别器。
背景技术
随着互联网的迅速发展,特别是Web2.0理念的逐渐深入,形形色色的虚拟社会网络层出不穷,如腾讯微博、Facebook和论坛(BBS)等,这些虚拟社会网络聚集了大量用户并且在这些用户之间形成了无形的虚拟社会,传播着各种各样的信息。人们现在越来越依赖网络来获取信息。例如用户可以在网易汽车论坛中对某款车型发表关于汽车性价比、油耗等个人看法,同时企业也可以通过各种论坛中用户所反馈的问题对其产品进行改善,及时调整下一代产品的改进方案及营销策略,以提高企业在市场中的竞争力。因此论坛的商品评论对于企业及消费者来说均是举足轻重的。然而面对如此庞大的互联网环境,不可能依靠人工对相关评论信息进行筛选、归纳,因此一套具有自动检索、筛选、总结相关信息的系统便有了迫切的市场需求。
通过对国内外大量文献进行分析,可以发现目前针对特定领域的网络论坛商品评论的倾向性分析技术仍然存在以下问题:(1)目前以互联网为桥梁,利用信息检索、自然语言处理等技术开发一个成熟、开放的针对某领域的倾向性分析系统实例比较少;(2)目前针对中文的情感词典不多,尤其是领域情感词典,现在较为流行的有HowNet(知网),在构建情感词典的过程中未考虑评价对象对情感极性的影响,也忽略了网络语言灵活性的特点,从而导致没有一个针对网络和特定领域的专有情感词典;(3)基于语义规则的评价对象抽取方法还只能找出频繁的评价对象,对于非频繁评价对象抽取的准确率较低,而且可扩展性差。
发明内容
本发明所要解决的技术问题是:提供一种文本倾向性分析方法及基于该方法的面向论坛的商品评论倾向判别器,提出通过将领域本体加入文本倾向性分析,设计并实现对论坛商品评论的倾向性分析。
为解决上述技术问题,本发明的技术方案是:一种文本倾向性分析方法,包括以下步骤:
(1)对评论文本进行预处理,通过采集模块中相应的爬虫工具对目标网页的爬取,并在预处理模块中,针对评论内容的HTML标签进行抽取、去噪,以筛选出有用的评论文本;
(2)针对预处理后的评论文本,句法分析模块经句法分析器识别出中文句法的依存关系结构;
(3)情感计算引擎根据情感词典计算出情感词的上下文极性值;
(4)将领域本体引入到SBV极性传递算法当中,二元组挖掘引擎根据本体知识,完成了评价对象和评价词的二元组抽取,并确定评价对象间的从属关系;
(5)通过对情感词倾向值加权求和得到句子倾向值,实现句子级倾向性判别;
(6)通过句子级极性值的正负,判别评论情感的褒贬倾向;根据极性绝对值大小,判别评论褒贬情感的强弱。
进一步的,所述情感词典包括静态情感词典、动态情感词典和修饰词词典;其中考虑到网络评论信息的随意性,将网络术语和特定的领域未登录词融入到静态情感词典中;动态情感词典主要采用人工方式构建;修饰词词典综合前人已有的研究成果并加以归并构成。
进一步的,采用SO-PMI处理未登录词,利用搜索引擎返回的结果计算词与词之间的贡献概率,同时获得单独词出现的概率,其公式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安建筑科技大学,未经西安建筑科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310355704.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:通过搜索引擎获取通信联系人的方法及终端
- 下一篇:具有交互功能的投影系统