[发明专利]文本关键词可视化显示方法、装置及计算机设备在审
申请号: | 202010461788.1 | 申请日: | 2020-05-27 |
公开(公告)号: | CN111694946A | 公开(公告)日: | 2020-09-22 |
发明(设计)人: | 陈祥 | 申请(专利权)人: | 平安银行股份有限公司 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F40/216;G06F40/289 |
代理公司: | 深圳市精英专利事务所 44242 | 代理人: | 李翔宇 |
地址: | 518000 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 关键词 可视化 显示 方法 装置 计算机 设备 | ||
1.一种文本关键词可视化显示方法,其特征在于,包括:
接收待稽核文本数据,获取所述待稽核文本数据对应的纯文本数据;
将所述纯文本数据通过基于概率统计分词模型进行分词,得到对应的分词结果;
将所述分词结果进行噪声词过滤,得到分词过滤结果;其中,所述分词过滤结果中包括非噪声词分组和噪声词分组;
将所述分词过滤结果的非噪声词分组对应的各分词通过词频-逆文本频率指数模型进行关键词抽取,并按照词频-逆文本频率指数进行降序排序,得到所述分词过滤结果中未超出预设的排名阈值的关键词词向量对应的分词,以组成关键词集合;以及
根据所述关键词集合中包括的各关键词转对应化为词云,将各关键词对应的词云发送至用户端以进行显示。
2.根据权利要求1所述的文本关键词可视化显示方法,其特征在于,所述获取所述待稽核文本数据对应的纯文本数据,包括:
判断所述待稽核文本数据的文件格式是否为预设的文件格式;
若所述待稽核文本数据的文件格式不为预设的文件格式,通过OCR图像识别模型获取所述待稽核文本数据对应的纯文本数据;
若所述待稽核文本数据的文件格式为预设的文件格式,获取所述待稽核文本数据对应的纯文本数据。
3.根据权利要求1所述的文本关键词可视化显示方法,其特征在于,所述将所述分词结果进行噪声词过滤,得到分词过滤结果,包括:
将所述分词结果通过逻辑回归模型进行噪声词过滤,得到分词过滤结果。
4.根据权利要求3所述的文本关键词可视化显示方法,其特征在于,还包括:
将训练集中所包括的各个词语均通过Word2Vec模型转化为训练集词向量;其中,训练集由历史噪声词库以及历史关键词库组成;
获取各训练集词向量对应的词语分类结果标注值;
将各训练集词向量输入至待训练逻辑回归模型,将各训练集词向量对应的词语分类结果标注值作为待训练逻辑回归模型对应的输出值,对所述待训练逻辑回归模型进行训练,得到用于区分关键词和噪声词的逻辑回归模型。
5.根据权利要求4所述的文本关键词可视化显示方法,其特征在于,所述将所述分词结果通过逻辑回归模型进行噪声词过滤,得到分词过滤结果,包括:
将所述将分词结果所包括的各个分词均通过Word2Vec模型转化为分词词向量;
将各分词词向量输入至所述逻辑回归模型,得到与各分词词向量对应的分词输出结果值;
判断各分词词向量对应的分词输出结果值是否小于预设的概率阈值;
若有分词词向量对应的分词输出结果值大于或等于所述概率阈值,将对应的分词词向量划分至分词过滤结果中的非噪声词分组;
若有分词词向量对应的分词输出结果值小于所述概率阈值,将对应的分词词向量划分至分词过滤结果中的噪声词分组。
6.根据权利要求1所述的文本关键词可视化显示方法,其特征在于,所述将所述分词过滤结果的非噪声词分组对应的各分词通过词频-逆文本频率指数模型进行关键词抽取,并按照词频-逆文本频率指数进行降序排序,得到所述分词过滤结果中未超出预设的排名阈值的关键词词向量对应的分词,以组成关键词集合,包括:
获取分词过滤结果的非噪声词分组相应各分词对应的词频;其中,将第i个分词的词频记为Tfi,将分词过滤结果的非噪声词分组中分词总个数记为N,i的取值范围是[1,N];
获取分词过滤结果的非噪声词分组相应各分词的逆文档频率;其中,将第i个分词的词频逆文档频率记为IDFi;
根据TF-IDFi=TFi*IDFi计算所述分词过滤结果的非噪声词分组相应第i个分词对应的词频-逆文本频率指数TF-IDFi;
将分词过滤结果的非噪声词分组相应每一分词对应的词频-逆文本频率指数按降序排序,取所述非噪声词分组中未超出所述排名阈值的关键词词向量对应的分词,以组成与所述待稽核文本数据对应的关键词集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安银行股份有限公司,未经平安银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010461788.1/1.html,转载请声明来源钻瓜专利网。