[发明专利]一种基于三元组的用户评论摘要的生成方法与系统有效
申请号: | 201110236683.7 | 申请日: | 2011-08-17 |
公开(公告)号: | CN102236722A | 公开(公告)日: | 2011-11-09 |
发明(设计)人: | 石忠民;徐亚波;杜伟夫 | 申请(专利权)人: | 广州索答信息科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q30/00 |
代理公司: | 广州市越秀区哲力专利商标事务所(普通合伙) 44288 | 代理人: | 汤喜友 |
地址: | 510663 广东省广州市萝岗区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 三元 用户 评论 摘要 生成 方法 系统 | ||
技术领域
本发明涉及计算机信息挖掘技术领域,尤其涉及一种基于三元组的用户评论摘要的生成方法与系统,主要用于从对象的大量用户评论中生成一个能客观反映所有用户评论的总体评价结果的决策摘要。
背景技术
目前,随着互联网的普及,用户在消费前都希望通过互联网去了解其他用户对消费对象所发表的评论,以此来确定消费对象是否值得自己去消费,这种对象可以是商家或产品,也可以是服务,比如用户想去某个餐馆或商场消费,只看该餐馆或商场的宣传信息是不够的,因为这些宣传信息很难客观的描述其真实的产品质量和服务水平,用户自然很想知道在这个餐馆或商场消费过的其他用户对其评价如何。然而,当针对对象的用户评论非常多的时候,用户很难从大规模的用户评论中获知这个对象某个自己非常关注的特征的正面评价和负面评价各占多少,也很难得知所有用户评论的总体结果是正面评价居多还是负面评价居多,比如用户想去一个餐馆吃饭,非常关注这个餐馆的食物和环境,但是涉及食物和环境的用户评论在所有用户评论中的分布是无规律的,用户要想查看所有涉及食物和环境的用户评论必须得将全部的用户评论一个一个看完,自己还要对正面评价和负面评价做统计,这显然耗时又耗力,极其不方便,而且花费如此大的代价看完全部的用户评论,获知的也仅仅只是食物和环境这个两个特征的评价结果,要想知道其它特征的评价结果和所有用户评论的总体评价结果,其工作量是难以想象的。并且,一个用户评论的文字篇幅有长有短,其中用户所关注的信息只是对象的特征和描述特征的情感词,其它信息都是无用的,但用户在查看时却不能只查看自己所关注的信息。
综上所述,目前用户在查看对象的用户评论时有如下两个重大问题:
1.用户评论中充斥着大量无用信息,导致查看时浪费时间;
2.不能直接查看特征的正面评价和负面评价各占多少,不能得知所有用户评论的总体评价结果,因此虽然有大规模的用户评论作为参考,却不能直观地辅助用户快速地做出正确决策。
发明内容
针对现有技术的不足,本发明的主要目的旨在于提供一种基于三元组的用户评论摘要的生成方法。
本发明的另一目的是提供一种基于三元组的用户评论摘要的生成系统。
为实现上述目的本发明采用如下技术方案:
一种基于三元组的用户评论摘要的生成方法,包括:
步骤1.建立对象的特征词库、映射词表与情感词库,并根据特征词库中的特征构建对象的特征树,其中,映射词表中的映射词与特征词库中的特征映射对应,情感词库包括正面情感词库和负面情感词库,特征树顶端的根节点是对象,根节点下的各层叶子节点是对象的特征,并且下一层叶子节点是对应的上一层叶子节点的子特征,上一层叶子节点是对应的下一层叶子节点的父特征;
步骤2.从互联网定向抓取对象的用户评论网页;
步骤3.接收用户评论网页中对象所有的用户评论;
步骤4.对每一个用户评论逐一进行如下处理,生成各自的评论摘要:
步骤41.根据特征词库和映射词表抽取对象的特征;
步骤42.根据情感词库识别情感词;
步骤43.搭配特征和情感词,生成基于对象、特征、情感词的评论三元组;
步骤44.抽取评论三元组生成该用户评论的评论摘要;
以及,该方法还包括:
步骤5.归纳整合所有用户评论的评论三元组,将以特征树第一层叶子节点以下的叶子节点为特征的评论三元组的特征归结到其对应的第一层叶子节点上,生成全部以特征树第一层叶子节点为特征的决策三元组;
步骤6.计算特征和情感词极性相同的决策三元组的数量,如果数量等于1,用这个决策三元组和数量组合来表示这个决策三元组,如果数量大于1,用其中任意一个决策三元组和数量组合来表示这些具有相同特征和情感词极性的决策三元组;
步骤7.以决策三元组和数量组合的表示形式抽取所有的决策三元组生成所有用户评论的决策摘要。
作为一种优选方案,所述步骤41包括:
步骤411.将用户评论分成句子;
步骤412.遍历句子中的每一个词,判断其是否在特征词库中出现,如果出现,抽取出来作为特征,如果没有出现在特征词库中但出现在映射词表中,抽取特征词库中与该词映射对应的特征出来作为特征。
作为一种优选方案,所述步骤42包括:
步骤421.将用户评论分成句子;
步骤422.遍历句子中的每一个词,将出现在情感词库中的词抽取出来作为情感词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州索答信息科技有限公司,未经广州索答信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110236683.7/2.html,转载请声明来源钻瓜专利网。