[发明专利]一种基于Word2Vec的企业舆情数据分析方法在审

申请号：	202011282421.X	申请日：	2020-11-16
公开（公告）号：	CN112347230A	公开（公告）日：	2021-02-09
发明（设计）人：	瞿学新;陈劲	申请（专利权）人：	上海品见智能科技有限公司
主分类号：	G06F16/33	分类号：	G06F16/33;G06F16/953;G06F40/216;G06F40/242
代理公司：	暂无信息	代理人：	暂无信息
地址：	201207 上海市浦东新区中国***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 word2vec 企业舆情数据分析方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于Word2Vec的企业舆情数据分析方法，包括如下步骤：收集整理步骤、确定情感词典步骤和得出结论步骤，本发明方法通过Word2Vec扩充情感词典，并结合词频、文本长度和阅读量有效的分析文本情绪倾向，避免了未考虑文本长度和文本阅读量对分析情感倾向的影响。此外，本发明创造性地提出了一种基于Word2Vec的企业舆情数据分析方法，用于分析企业的舆论的情绪倾向，从而帮助企业或管理人员有效的分析舆情，进而避免品牌和客户信任危机。

技术领域

本发明涉及自然语言处理的技术领域，具体是一种基于Word2Vec的企业舆情数据分析方法。

背景技术

随着互联网应用的普及与发展，以及微博等新兴媒体的崛起，舆情的呈现多渠道、传播快和范围广等特点，为企业管理带来了新的挑战。负面舆情不仅会使得企业品牌受损和客户信任下降，更会给企业带来经济损失。因此，如何在海量的信息中分析企业舆情，及时扭转舆论风向，就变得尤为重要。

目前，随着人工智能的兴起和微博等平台的数据积累，催生出使自然语言模型进行舆论情感预测，从而检测企业互联网舆情。因此如何有效的将企业的新闻和评论文本进行分析，从中分析舆论情感值，是十分具有实际意义。

发明内容

本发明的目的在于提供一种基于Word2Vec的企业舆情数据分析方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种基于Word2Vec的企业舆情数据分析方法，包括如下步骤：收集整理步骤、确定情感词典步骤和得出结论步骤。

步骤1，收集整理步骤：定义文本训练集合停用词，并对文本数据集中每个中文文本分词和过滤停用词进行预处理，得到预处理后的文本训练集；

其中，步骤1.1：定义文本数据Txt＝{txt₁,txt₂,……,txt_num}，其中，num为文本总数；

步骤1.2：定义文本停用词集S＝{st₁,st₂,……,st_sn}，其中,sn为停用词数量；