[发明专利]一种对电商产品评论词汇的歧义消除方法及装置有效
申请号: | 201710473766.5 | 申请日: | 2017-06-21 |
公开(公告)号: | CN107526721B | 公开(公告)日: | 2020-07-10 |
发明(设计)人: | 谷云松;黄侃;于英 | 申请(专利权)人: | 深圳美云智数科技有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/253;G06F16/30 |
代理公司: | 深圳市隆天联鼎知识产权代理有限公司 44232 | 代理人: | 刘抗美 |
地址: | 528311 广东省佛山市顺*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 产品 评论 词汇 歧义 消除 方法 装置 | ||
1.一种对产品评论词汇的歧义消除方法,其特征在于,包括:
获取针对指定产品的历史评论文本,从所述历史评论文本中提取产品历史特征词和对应的历史情感词;
根据所述历史特征词与对应的各历史情感词之间的同现关系,筛选出最频繁出现的历史特征词和历史情感词组合;
根据最频繁出现的历史特征词和历史情感词组合生成所述历史特征词的义项标注;
获取针对指定产品输入的新评论文本,从所述新评论文本中提取产品新特征词和对应的新情感词组合;
根据所述新特征词和新情感词组合,查询与所述新特征词和新情感词组合匹配的历史特征词和历史情感词组合,将匹配的历史特征词的义项标注作为所述新特征词的词义。
2.根据权利要求1所述的方法,其特征在于,所述获取针对指定产品的历史评论文本,从所述历史评论文本中提取产品历史特征词和对应的历史情感词,包括:
对所述历史评论文本进行分词操作,得到若干历史特征词和历史情感词;
统计每个历史特征词和每个历史情感词在所述历史评论文本中的出现次数,计算每个历史特征词和每个历史情感词在所述历史评论文本中的支持度;
将所述历史特征词和历史情感词按支持度降序进行排列形成频繁项列表,根据设定的最小支持度阈值,筛选出支持度大于等于最小支持度阈值的历史特征词和历史情感词,分别写入特征词事务数据库和情感词事务数据库。
3.根据权利要求2所述的方法,其特征在于,所述根据历史特征词与对应的各历史情感词之间的同现关系,筛选出最频繁出现的历史特征词和历史情感词组合,包括:
扫描所述特征词事务数据库,将所述历史特征词生成特征词频繁一项集;扫描所述情感词事务数据库,将所述历史情感词生成情感词频繁一项集;将所述历史特征词与所述历史情感词组合生成“历史特征词-历史情感词”频繁二项集;
根据所述历史评论文本的频繁二项集中每个“历史特征词-历史情感词”组合出现的次数,利用关联规则挖掘算法筛选出最频繁出现的历史特征词和历史情感词组合。
4.根据权利要求3所述的方法,其特征在于,所述根据所述历史评论文本的频繁二项集中每个“历史特征词-历史情感词”组合出现的次数,利用关联规则挖掘算法筛选出最频繁出现的历史特征词和历史情感词组合,包括:
将所述“历史情感词-历史特征词”频繁二项集作为候选项集,计算频繁二项集中每个组合的支持度;
将频繁二项集中的每个组合按照支持度降序排序,将大于等于最小支持度阈值的组合构成频繁二项表;
创建FP-Growth树根节点null,根据所述频繁二项表,依次将每个“历史情感词-历史特征词”组合作为一个事务从表中抽出,与所述根节点结合,构成一个从根节点null-特征词-情感词的路径,通过路径对所述事务进行编码,并将路径上所有节点的频度计数为1,生成若干路径,形成频繁模式FP-Growth树;
根据所述频繁模式FP-Growth树,由所述频繁二项集生成关联规则,得到所述历史特征词所关联的历史情感词共同构成的“历史特征词-历史情感词”的最频繁同现关系。
5.根据权利要求4所述的方法,其特征在于,所述根据频繁模式FP-Growth树,由所述频繁二项集生成关联规则,得到所述历史特征词所关联的历史情感词共同构成的“历史特征词-历史情感词”的最频繁同现关系,包括:
计算所述频繁二项集中每个“历史情感词-历史特征词”组合的置信度;
根据每个“历史情感词-历史特征词”组合的支持度和置信度计算结果,对每个“历史情感词-历史特征词”组合构建条件模式基及条件FP-Growth树,遍历整个频繁二项集,直到FP-Growth树为空,或者FP-Growth树仅包含一条单一的路径;
将生成所述路径的所有子路径的组合中的每个组合作为一个频繁模式,即“历史特征词-历史情感词”的最频繁同现关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳美云智数科技有限公司,未经深圳美云智数科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710473766.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:意思生成方法、意思生成装置以及程序
- 下一篇:一种可交互的数据信息可视化系统