[发明专利]一种产品参数获取系统和方法无效
申请号: | 200910078790.4 | 申请日: | 2009-03-03 |
公开(公告)号: | CN101576907A | 公开(公告)日: | 2009-11-11 |
发明(设计)人: | 杜小勇;刘红岩;何军;魏巍;杨慧 | 申请(专利权)人: | 杜小勇 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京中创阳光知识产权代理有限责任公司 | 代理人: | 尹振启 |
地址: | 100872北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 产品 参数 获取 系统 方法 | ||
技术领域
本发明涉及一种产品参数获取系统和方法,尤其是涉及一种面向领域的产品评论中自动获取产品各项参数的系统和方法。
背景技术
目前,从产品评论中自动获取产品参数已经有了一些研究,主要有两种方法:基于词频统计的方法和基于规则的方法。
基于词频统计的方法,主要是通过统计评论中各个词或短语出现的频率,将出现频率较高的名词或名词短语作为备选的产品参数,并通过一些去噪规则去掉一些噪音。现有的基于词频统计的方法,前提假设是出现频率高的才可能是产品参数,但是有些时候评论数据中可能会存在出现频率很低的产品参数,这样利用基于词频统计的方法就获取不到这些低频的参数了。而且通过去噪规则处理以后,得到的产品参数中仍然会存在大量的噪音。
基于规则的方法,主要是通过事先手工的设定一些获取规则,然后将这些获取规则应用到用户提交的产品评论中,获取满足规则的词或短语,作为产品的参数。基于规则的方法比较简单,最大的缺陷是这些事先设定的规则不能跨领域使用,不同类的产品需要不同的获取规则。
现有的方法存在很大的应用缺陷,不是满足不了跨领域的需求,就是达不到较高的召回率。
发明内容
本发明是鉴于上述技术问题而产生的。本发明的一个目的是提出一种一种产品参数获取系统和方法。
在一个方面中,根据本发明的产品参数获取系统包括:目标评论词频统计单元,用于统计目标评论中各个名词或名词词组出现的频率并排序,并得到一个词表;产品评论词频统计单元,用于统计词表中的每个词在不同领域内的产品评论的出现频率并记录,同时查看出现该词的每个评论子句中出现形容词的子句数目并记录;相关度计算单元,用于利用目标评论词频统计单元和产品评论词频统计单元的统计结果来计算词表中每个词的相关度,并且将相关度大于某个设定值的词作为结果表中的产品参数;表达模式抽取单元,用于抽取结果表中的每个产品参数在目标产品评论中的表达模式并将其记录成一个产品参数表达模式表;以及匹配单元,用于通过在目标评论句子中匹配这些表达模式来找到那些隐藏的出现频率不高的产品参数词。
在这个方面中,其中利用以下公式来计算词表中每个词的相关度:
在这个方面中,其中表达模式抽取单元进一步包括:检查模块,用于对包含结果表中的某个词的每条目标评论句子进行检查;提取模块,用于提取从该词开始到周围最近的形容词的这部分句子片段以作为该词在该句子中的表达模式。
在这个方面中,其中匹配单元进一步包括:查找模块,用于在表达模式表中从出现频率最高的表达模式开始查找目标评论句子中与该表达模式相匹配的评论;新参数词获取模块,用于在查找到匹配评论的情况下从匹配的评论中得到新的产品参数词;以及新参数词添加模块,用于在结果表中不存在该新参数词的情况下将该新参数词加入到结果参数表中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杜小勇,未经杜小勇许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910078790.4/2.html,转载请声明来源钻瓜专利网。