[发明专利]提取商品属性信息的方法和设备有效
申请号: | 200910164414.7 | 申请日: | 2009-07-27 |
公开(公告)号: | CN101968788A | 公开(公告)日: | 2011-02-09 |
发明(设计)人: | 张姝;夏迎炬;孟遥;于浩 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 陈炜;许伟群 |
地址: | 日本神*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 提取 商品 属性 信息 方法 设备 | ||
技术领域
本发明总体上涉及网络信息处理领域,并且尤其涉及一种无指导的、从互联网上的众多用户评论信息中自动提取商品属性(product feature)信息的方法和设备。
背景技术
随着互联网的快速发展,互联网上的信息量每天都在以惊人的速度增长。越来越多的人喜欢在网上发表他们对人、事、物的意见,网络上出现了大量的含有个人观点和评论的信息。如何分析和监测网络上的评论信息,如何减轻人们阅读大量相关评论信息的工作量,已经成为自然语言处理领域中的一个研究热点。
在对评论信息进行分析时,如何从评论信息中提取出所关注的评论内容是一个基本问题。例如,在购买电子商品“手机”之前,人们往往习惯于先查看一下网络上已有的关于该商品的评论。此时,商品的属性、例如体积、屏幕大小、分辨率等都是所关注的评论内容。
对于如何从商品评论信息中提取出商品的属性信息,首先想到的是基于词典的匹配方法。它的前提是已经具有了一部涉及特定领域的属性词典。但是,基于词典的匹配方法存在以下一个或多个问题:
·词典的覆盖率问题:词典中收录的词汇相对有限,很难覆盖评论信息中的所有属性词汇,例如,很难覆盖新出现的网络用语、缩写等;
·与词典的简单匹配欠缺灵活性,例如,对于词典里收录的属性词“屏幕分辨率”,评论信息中出现的诸如“屏幕的分辨率”、“高分辨率的屏幕”等用语都很难被匹配上,从而使得难以提取出正确的商品属性信息;以及
·词典的获取问题:词典的构建是一件费时费力的工程。
然而,由于词典匹配方法的局限性,目前,对于商品属性的提取,越来越多地采用了从网上发表的商品评论信息中自动提取商品属性信息的技术。
目前,与其相关的代表性研究主要包括:
·Minqing Hu和Bing Liu所著的“Mining Opinion Features in Customer Reviews”(参见Proceedings of Nineteeth NationalConference on Artificial Intelligence(AAAI-2004),第755~760页,2004年7月,美国圣约瑟);
·Minqing Hu和Bing Liu所著的“Mining and Summarizing Customer Reviews”(参见Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining,第168~177页,2004年8月22~25日,美国华盛顿州西雅图);以及
·A.M.Popescu和o.Etzioni所著的“Extracting Product Features and Opinions from Reviews”(参见Proceedings of the Human Language Technology Conference/Conference on Empirical Methods in Natural Language Processing(HLT-EMNLP-05),第339-346页,2005年,加拿大温哥华)。
在上述这些研究中,Bing Liu等人采用了基于关联规则挖掘(Associate Rule Mining)和词频统计的被评论特征提取方法,而Popescu等人采用了基于点互信息的属性词提取。其中,对词语的出现频率信息的利用有利于从评论信息中提取出高频的商品特征,但是往往忽略了低频的商品特征。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
本发明旨在至少解决现有技术中存在的上述问题之一,实现商品属性信息的自动提取,从而至少部分地弥补人工费时费力的缺点、或者基于词典提取的词典覆盖率及灵活性差等缺点。
为此,本发明的一个目的是提供一种用于从包括评论语句的评论信息中提取商品属性信息的方法和设备,其能够无指导地自动提取商品属性信息,并且能够通过基于模板的商品信息提取过程提取出在高频商品属性信息提取过程中被漏掉的非高频商品属性信息,作为对高频商品属性信息的补充。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910164414.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:包含链环的链条
- 下一篇:半导体基板、半导体基板的制造方法及半导体装置
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置