[发明专利]一种汽车口碑的情感分析方法和装置有效
申请号: | 202010903683.7 | 申请日: | 2020-09-01 |
公开(公告)号: | CN112101033B | 公开(公告)日: | 2021-06-15 |
发明(设计)人: | 陈晶;李奏换;卢春霞;黎秋怡;刘丹;梁维新 | 申请(专利权)人: | 广州威尔森信息科技有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F16/35;G06K9/62;G06Q10/06;G06F9/50 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 杨小红 |
地址: | 510623 广东省广州市天河区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 汽车 口碑 情感 分析 方法 装置 | ||
1.一种汽车口碑的情感分析方法,其特征在于,包括步骤:
S1、从汽车平台获取用于训练和测试的汽车口碑数据;
S2、基于自然语言处理,对所述汽车口碑数据进行汽车配置项、情感词、程度词、否定词的实体抽取,并对所述汽车配置项所在切割语料的情感极性进行判断后得到样本数据,其中,所述切割语料为基于所述汽车配置项对所述汽车口碑数据进行切割后得到的;
S3、对所述样本数据中的所述汽车配置项、所述情感词、所述程度词和所述否定词进行分层抽样,并基于抽样的数据构建训练集和测试集;
S4、基于所述样本数据,构建各汽车配置项分别对应的正、中、负三个情感极性的隐马尔可夫模型;
S5、通过训练集训练所述隐马尔可夫模型,直至训练后的所述隐马尔可夫模型对所述测试集的预测准确率满足预设条件,停止训练,并保存训练后的各所述隐马尔可夫模型;
S6、获取新汽车口碑数据,并基于保存的所述隐马尔可夫模型对所述新汽车口碑数据进行基于所述汽车配置项的情感极性分析,得到所述新汽车口碑数据对应的情感分析结果;
S7、基于预置指标维度,汇总所述情感分析结果对应的指标维度结果后,展示所述指标维度结果;
步骤S1具体包括:
S11、从汽车平台获取用于训练和测试的汽车口碑数据;
S12、构建所述汽车口碑数据的情感元素五元组,其中,所述情感元素五元组包括:所述汽车配置项、所述情感词、所述程度词、所述否定词和所述汽车配置项的配置项类别;
步骤S2具体包括:
S21、基于结巴分词,根据步骤S12中的所述汽车配置项对所述汽车口碑数据进行切割,得到切割语料;
S22、根据所述汽车配置项和对应的切割语料的语料类别,通过卡方计算各所述汽车配置项对应的所述配置项类别;
S23、根据步骤S12中的所述情感元素五元组对所述切割语料进行分词,并对所述汽车配置项、所述情感词、所述程度词、所述否定词进行实体抽取;
S24、对所述汽车配置项所在的所述切割语料进行情感极性的判断,得到情感极性计分;
S25、按所述配置项类别对所述情感极性计分进行随机抽样后,进行人工校对,当校对准确率达到预置准确率阈值后,将实体抽取的所述汽车配置项、所述情感词、所述程度词和所述否定词作为样本数据;
步骤S6具体包括:
S61、通过异步多线程接口将新汽车口碑数据平均分配到不同线程中进行处理;
S62、根据所述新汽车口碑数据中包括的汽车配置项,对所述新汽车口碑数据进行口碑语料切割,得到拆分数据;
S63、对所述拆分数据清洗、分词、去停用词后,得到待分析数据;
S64、基于保存的所述隐马尔可夫模型对所述待分析数据进行基于所述汽车配置项的情感极性分析,得到所述新汽车口碑数据对应的情感分析结果。
2.根据权利要求1所述的汽车口碑的情感分析方法,其特征在于,步骤S3具体包括:
S31、对所述样本数据中的所述汽车配置项、所述情感词、所述程度词和所述否定词进行组合分层;
S32、对组合分层后的数据按照第一预置比例进行抽取,得到抽取数据;
S33、对抽取数据进行清洗、分词、去停用词后,得到中间数据;
S34、按照第二预置比例分配所述中间数据,得到训练集和测试集。
3.根据权利要求2所述的汽车口碑的情感分析方法,其特征在于,步骤S4具体包括:
S41、基于所述样本数据构建用于构建隐马尔可夫模型的隐马尔可夫五元组;
S42、根据所述隐马尔可夫五元组分别构建各汽车配置项的正、中、负三个情感极性的隐马尔可夫模型。
4.根据权利要求3所述的汽车口碑的情感分析方法,其特征在于,步骤S5具体包括:
S51、通过训练集训练所述隐马尔可夫模型;
S52、验证步骤S51得到的所述隐马尔可夫模型对所述测试集中的测试数据的情感测试结果;
S53、判断所述情感测试结果的预测准确率和F1,若均满足各自对应的子预设条件,则保存训练后的各所述隐马尔可夫模型,否则,确定造成未满足子预设条件的原因后,返回步骤S51重新训练所述隐马尔可夫模型,其中,F1为精确率和召回率的调和平均数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州威尔森信息科技有限公司,未经广州威尔森信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010903683.7/1.html,转载请声明来源钻瓜专利网。