[发明专利]基于方面情感分析的公司员工评论分析系统与方法在审
申请号: | 202110151221.9 | 申请日: | 2021-02-03 |
公开(公告)号: | CN112966070A | 公开(公告)日: | 2021-06-15 |
发明(设计)人: | 潘潇;任卓明 | 申请(专利权)人: | 杭州师范大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/951;G06F16/9535;G06F40/284;G06F40/289 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
地址: | 311121 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 方面 情感 分析 公司员工 评论 系统 方法 | ||
1.一种基于方面情感分析的公司员工评论分析系统,其特征在于,包括数据库、数据采集模块、数据预处理模块、特征提取模块、算法处理模块和结果展示模块:
所述的数据采集模块连接数据库,所述的数据预处理模块用于对数据采集模块采集到的数据进行预处理,特征提取模块连接数据预处理模块,对预处理后的公司员工评论数据进行特征提取;算法处理模块连接特征提取模块,根据提取的特征计算评论数据中不同方面的相对权重,并根据员工对公司的总体评分,给出修正后的该公司每个方面评分,所述的结果展示模块连接算法处理模块,用于结果的展示;
数据采集模块,用于采集职场社区网站上不同公司员工的匿名评论数据,并且按公司分类分别存入数据库,所述评论数据包括公司名称、员工对公司的文本评论,员工对公司的总体评价等级以及员工对公司“各个方面的评价等级”;
数据预处理模块,用于对采集到的公司员工评论数据进行预处理:首先将收集到的数据集分为两类数据,第一类数据为:文本数据,包括公司名称和员工对公司的文本评论,第二类数据为:数值数据,包括员工对公司的总体评价等级和员工对公司“各个方面的评价等级”,然后对评论数据进行预处理操作;
所述的特征提取模块通过特征提取算法对预处理后的公司员工评论数据进行特征提取,为每个方面获取更多的相关词,得到字词特征向量和方面级向量,最终将文本数据转化为数字形式表述;
算法处理模块,内含算法模型,用于将给定员工评论的总体评分分解为不同方面的评分,并计算出员工对这些方面的相对权重;
结果展示模块,用于向用户展示最终的计算分析结果以及系统运行状况。
2.根据权利要求1所述的一种基于方面情感分析的公司员工评论分析系统,其特征在于,所述的“各个方面”包括:“工作与生活平衡”、“文化与价值观”、“高级管理层”、“职业机会”和“薪酬与福利”。
3.根据权利要求1所述的一种基于方面情感分析的公司员工评论分析系统,其特征在于,进一步的,所述的数据采集模块的数据获取的方式包括网络爬虫、API接口、数据源三种方式。
4.根据权利要求1所述的一种基于方面情感分析的公司员工评论分析系统,其特征在于,所述的数据预处理模块的预处理操作具体如下:
(1)将文本数据中的单词全转换为小写;
(2)删除文本数据中的标点符号,STOPWORDS中定义的停用词以及在语料库中出现少于5次的术语;
(3)用英文分词算法(即Porter Stemmer)从英语单词中抽取词的词干或词根形式,实现术语标准化;
(4)将数值数据中的非数值数据补为NaN值,接着将其统一填充为0。
5.根据权利要求1或4所述的一种基于方面情感分析的公司员工评论分析系统,其特征在于,所述的特征提取模块则是在文本数据完成数据预处理之后,根据公司员工对公司“各个方面的评价等级”,设定关键词对各个方面进行描述,接着采用特征提取算法将评论中的句子映射为与每个方面相对应的子集,以此来为每个方面获取更多的相关词;在完成特征提取之后,对于每个评论,都有一个词频矩阵,该矩阵给出每个方面的归一化词频;矩阵的每一行是一个词的词向量,每一列是一个方面级向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州师范大学,未经杭州师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110151221.9/1.html,转载请声明来源钻瓜专利网。