[发明专利]基于文本的指标提取方法、装置、计算机设备及存储介质有效
申请号: | 201910963475.3 | 申请日: | 2019-10-11 |
公开(公告)号: | CN110991785B | 公开(公告)日: | 2023-07-25 |
发明(设计)人: | 陈波;冯冠翔 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06Q10/0639 | 分类号: | G06Q10/0639;G06F16/35;G06F16/33 |
代理公司: | 深圳市精英专利事务所 44242 | 代理人: | 李翔宇 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 文本 指标 提取 方法 装置 计算机 设备 存储 介质 | ||
1.一种基于文本的指标提取方法,其特征在于,包括:
接收上传端所上传的文本数据,将所述文本数据进行关键词抽取,以得到关键词集合;
获取关键词集合中各关键词对应的词向量,将关键词集合中各关键词对应的词向量进行聚类,得到多个聚类群;
获取各聚类群中词向量分别对应的关键词,得到各聚类群对应的关键词聚类群,以组成当前时期关键词集合;
获取已存储的历史关键词集合,将当前时期关键词集合中每一关键词与历史关键词集合中每一关键词均进行比对,得到当前时期关键词集合与历史关键词集合之间关键词的差异值,由各差异值组成考核指标差异信息;以及
将所述关键词集合及所述考核指标差异信息发送至上传端;
所述获取已存储的历史关键词集合,将当前时期关键词集合中每一关键词与历史关键词集合中每一关键词均进行比对,得到当前时期关键词集合与历史关键词集合之间关键词的差异值,由各差异值组成考核指标差异信息,包括:
获取已存储的历史关键词集合,并获取历史关键词集合对应包括的历史关键词子集;
获取当前时期关键词集合对应包括的关键词聚类群;
获取各关键词聚类群对应的历史关键词子集,将每一关键词聚类群所包括的关键词与对应的历史关键词子集所包括的关键词进行比对,得到与各关键词聚类群对应的差异值,以组成考核指标差异信息。
2.根据权利要求1所述的基于文本的指标提取方法,其特征在于,所述接收上传端所上传的文本数据,将所述文本数据进行关键词抽取,以得到关键词集合,包括:
将所述文本数据通过基于概率统计分词模型进行分词,得到与所述文本数据对应的分词结果;
通过词频-逆文本频率指数模型,抽取所述分词结果中位于预设的排名值之前的关键词,以组成关键词集合。
3.根据权利要求2所述的基于文本的指标提取方法,其特征在于,所述通过词频-逆文本频率指数模型,抽取所述分词结果中位于预设的排名值之前的关键词,以组成关键词集合,包括:
获取分词结果中每一分词i的词频,记为Tfi;
获取分词结果中每一分词i的逆文档频率,记为IDFi;
根据TFi*IDFi计算所述分词结果中每一分词i对应的词频-逆文本频率指数TF-IDFi;
将分词结果中每一分词对应的词频-逆文本频率指数按降序排序,取排名位于预设的排名值之前的分词,以组成与所述文本对应的关键词集合。
4.根据权利要求1所述的基于文本的指标提取方法,其特征在于,所述将关键词集合中各关键词对应的词向量进行聚类,得到多个聚类群,包括:
在关键词集合中各关键词对应的词向量中选取与预设的聚类簇数相同个数的词向量,将所选取的词向量作为每一簇的初始聚类中心;
根据关键词集合中各关键词对应的词向量与各初始聚类中心的欧氏距离,将关键词集合中各关键词对应的词向量进行划分,得到初始聚类结果;
根据初始聚类结果,获取每一簇的调整后聚类中心;
根据调整后聚类中心,将关键词集合中各关键词对应的词向量根据与调整后聚类中心的欧氏距离进行划分,直至聚类结果保持相同的次数多于预设的次数,得到与预设的聚类簇数对应的聚类群。
5.根据权利要求1所述的基于文本的指标提取方法,其特征在于,所述获取各聚类群中词向量分别对应的关键词,包括:
将各聚类群中词向量分别根据已存储的关键词-词向量的映射关系,将各聚类群中词向量分别对应还原转化成关键词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910963475.3/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理