[发明专利]一种基于文本分词的离职预测方法及系统有效
申请号: | 202010273748.4 | 申请日: | 2020-04-09 |
公开(公告)号: | CN111489030B | 公开(公告)日: | 2021-10-15 |
发明(设计)人: | 吴晓军 | 申请(专利权)人: | 河北利至人力资源服务有限公司 |
主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06Q10/10;G06F16/951;G06F16/31;G06F16/35;G06F40/289;G06F40/247;G06F40/30 |
代理公司: | 苏州瞪羚知识产权代理事务所(普通合伙) 32438 | 代理人: | 周治宇 |
地址: | 050051 河北*** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 文本 分词 离职 预测 方法 系统 | ||
1.一种基于文本分词的离职预测方法,其特征在于,所述方法包括:
步骤101,获取通讯文本与工作日志记录,形成通讯日志文本,发送至大数据库;获取网页数据,自动学习离职词汇,提取离职原因与离职关键词,并记录所述离职关键词、离职原因出现频次,定期将新学习训练的数据发送至所述大数据库;
步骤102,对所述通讯日志文本进行分词处理;关键词比对模块将所述通讯日志文本中的词汇与大数据库的离职关键词索引表进行对比,以间隔符提取分词文本中的词汇,采用归一化因子算法,计算词汇之间相似度,相似度大于预设阈值时判断为识别离职词汇,并记录大数据库中索引表存在的离职关键词权重系数,归一化因子大于预设阈值时判断为离职词汇,将所述离职词汇加入到离职关键词特征向量;将通讯日志分词文本中的词汇与大数据库中离职原因索引表进行对比,以间隔符提取分词文本中的词汇,采用归一化因子算法,计算词汇之间相似度,相似度大于预设阈值时判断为识别离职相关词汇,并记录大数据库中索引表存在的离职原因权重系数,归一化因子大于预设阈值时判断为离职词汇,将所述离职词汇加入到离职关键词特征向量;
分词算法具体为,第一步,假设M为词条链中语句的数量,对整数i进行遍历,i表示第i条语句;第二步,取ZW为指针向量,并将第i条的语句逐字付给指针向量ZW;第三步,对整数w进行遍历,w的最大值取ZW的长度len(ZW);第四步,取整数E表示指针向量ZW的当前指针距离末位指针距离获得剩余长度;第五步,假设U为大数据库中存储的中文字典中最长单词长度;第六步,使用IfIndic函数判断当前指针词是否在字典目录内,如果在则分词文本Fenci赋值当前文本ZW和切分标志号;
步骤103,将文本中心词汇与岗位文本对比,如果相似性小于预设阈值则加入离职原因特征向量并写入大数据库预警表;具体包括:通过语义分析获取通讯日志文本中心主旨,通过大数据库获取通讯日志分词文本,遍历间隔符对所述通讯日志分词文本进行数据清洗,比对大数据库词典,去除聚类无效停用词,遍历通讯日志分词文本词汇,建立聚类特征向量,采用词频-逆向文件频率算法进行权值转换,词频计算公式为y为2时表示文本出现次数,y为3时表示文本向量权值,计算该词汇在文本中出现频率,逆向文件频率计算公式为,n∈L;L为该文本词汇总数,分母为文本中包含该词汇的次数;取tfidf=Tf*idf,作为文本向量权值边长赋值给设置r个聚类族,采用r分-K-means聚类可视化算法,先将本分词汇分为r个类,对于每个类采用K-means聚类可视化算法,以为横坐标,为纵坐标,打印出中心图形,通过计算图的几何中心坐标,选取横纵坐标处于中心的词汇作为该族的中心词汇,以该词汇的为该族横坐标,为该族纵坐标,通过递归法打印各族图形,选取横纵坐标处于中心族为中心族,该族的词汇为文本中心词汇,将该文本中心词汇与岗位文本对比,如果相似性小于预设阈值则加入离职原因特征向量,并写入大数据库预警表;
步骤104,定时启动大数据批量计算任务,计算离职关键词索引表中对应的频次,在总频次中所占比例并作为离职关键词特征向量权重系数;
步骤105,根据分类模型,以离职关键词特征向量和离职原因特征向量为输入,计算获得离职倾向度。
2.根据权利要求1所述的方法,其特征在于,所述分词处理具体为,所述分词处理模块对通讯日志文本进行结构化文本编辑处理,获得格式化的通讯日志文本,通过标点符号识别将格式化通讯日志文本变为N个词条,建立链式数据结构词条链,通过自然语句文法标记所述词条链中的动词、名词、停用词,采用分词算法进行分词获得通讯日志分词文本,将所述通讯日志分词文本存储至所述大数据库。
3.根据权利要求1所述的方法,其特征在于,所述归一化因子算法公式为其中S1为分词文本Fenci中每个间隔提取词汇,S2为大数据库中离职关键词索引表中词汇,Simi(s1,s2)大于预设阈值时判断为识别度离职相关词汇,加入离职关键词特征向量其中n表示所属文本编号,m表示所属语句编号,y=1时代表离职关键词,y=2时表示离职关键词所属权重。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河北利至人力资源服务有限公司,未经河北利至人力资源服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010273748.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据处理方法、设备及存储介质
- 下一篇:斜齿轮多参数齿廓修形优化设计方法
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理