[发明专利]产品感性意象词汇提取方法及系统在审
申请号: | 202010156718.5 | 申请日: | 2020-03-09 |
公开(公告)号: | CN111414753A | 公开(公告)日: | 2020-07-14 |
发明(设计)人: | 刘征;陈志萱;王雨桢;王昀;胡惠君 | 申请(专利权)人: | 中国美术学院 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F16/35;G06Q30/02 |
代理公司: | 杭州裕阳联合专利代理有限公司 33289 | 代理人: | 姚宇吉 |
地址: | 310002 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 产品 感性 意象 词汇 提取 方法 系统 | ||
1.一种产品感性意象词汇提取方法,其特征在于包括以下步骤:
收集目标产品的评论文本数据,并对所述评论文本数据进行分词,获得评价词汇;
提取评价词汇中用于评价外观的高频词汇作为中心词汇,提取评价词汇中的形容词,获得形容词词汇;将所述评价词汇转化为词向量,基于词向量计算各形容词词汇与所述中心词汇的相似度,根据所述相似度提取相对应的形容词词汇作为初始感性意象词汇;
对所述初始感性意象词汇进行聚类,根据聚类结果提取相对应的初始感性意象词作为感性意象词汇。
2.根据权利要求1所述的产品感性意象词汇提取方法,其特征在于,基于词向量计算各形容词词汇与所述中心词汇的相似度,根据所述相似度提取相对应的形容词词汇作为初始感性意象词汇的具体步骤为:
计算中心词汇对应的词向量和各形容词词汇对应的词向量之间的余弦相似度,将计算结果作为所述中心词汇和所述形容词词汇的相似度,提取相似度超出预设的相似度阈值的形容词词汇作为相关词汇,获取各相关词汇在评价词汇中出现的词频;
将各中心词汇所对应的相关词汇进行合并,提取出词频超出预设的词频阈值的相关词汇,获得初始感性意象词汇。
3.根据权利要求1所述的产品感性意象词汇提取方法,其特征在于,对所述初始感性意象词汇进行聚类,根据聚类结果提取相对应的初始感性意象词作为感性意象词汇的具体步骤为:
基于初始感性意象词汇的词向量计算聚类数;
根据初始感性意象词汇的词向量对所述初始感性意象词汇进行聚类,获得对应数量的聚类簇,并获得每个聚类簇的聚类中心,提取每个聚类簇中与其聚类中心距离最近的初始感性意象词汇,生成并输出感性意象词汇。
4.根据权利要求1所述的产品感性意象词汇提取方法,其特征在于,提取评价词汇中用于评价外观的高频词汇作为中心词汇,提取评价词汇中的形容词,获得形容词词汇的具体步骤为:
按照词性对所述评价词汇进行分类,提取词性为形容词的评价词汇,获得形容词词汇,同时提取词性为名词和动词的评价词汇,并对提取获得的名词词汇和动词词汇中指代目标产品的词汇进行剔除,获得基础词汇;
统计所述评价词汇中各基础词汇的词频,根据所述词频提取相对应的基础词汇,获得高频词汇,从所述高频词汇筛选出用于评价外观的词汇作为中心词汇。
5.根据权利要求1所述的产品感性意象词汇提取方法,其特征在于,基于word2vec模型将所述评价词汇转化为词向量。
6.根据权利要求1所述的产品感性意象词汇提取方法,其特征在于,对所述初始感性意象词汇进行聚类,根据聚类结果提取相对应的初始感性意象词作为感性意象词汇后还包括可视化处理步骤,具体步骤为:
将各初始感性意象词汇的词向量进行降维处理,获得相对应的坐标点;
将所述坐标点按照聚类结果映射到二维平面中,生成感性意象词汇空间地图并输出。
7.一种产品感性意象词汇提取系统,其特征在于,包括:
语料获取模块,用于评价词汇获取模块,用于收集目标产品的评论文本数据,并对所述评论文本数据进行分词,获得评价词汇;
预提取模块,用于提取评价词汇中用于评价外观的高频词汇作为中心词汇,提取评价词汇中的形容词,获得形容词词汇;将所述评价词汇转化为词向量,基于词向量计算各形容词词汇与所述中心词汇的相似度,根据所述相似度提取相对应的形容词词汇作为初始感性意象词汇;
提取模块,用于对所述初始感性意象词汇进行聚类,根据聚类结果提取相对应的初始感性意象词作为感性意象词汇。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国美术学院,未经中国美术学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010156718.5/1.html,转载请声明来源钻瓜专利网。