[发明专利]文本关键词可视化显示方法、装置及计算机设备在审

申请号：	202010461788.1	申请日：	2020-05-27
公开（公告）号：	CN111694946A	公开（公告）日：	2020-09-22
发明（设计）人：	陈祥	申请（专利权）人：	平安银行股份有限公司
主分类号：	G06F16/34	分类号：	G06F16/34;G06F40/216;G06F40/289
代理公司：	深圳市精英专利事务所 44242	代理人：	李翔宇
地址：	518000 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本关键词可视化显示方法装置计算机设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及人工智能，提供一种文本关键词可视化显示方法、装置、计算机设备及存储介质，包括接收待稽核文本数据以获取对应的纯文本数据；将纯文本数据进行分词得到对应的分词结果；将分词结果进行噪声词过滤，得到分词过滤结果，其包括非噪声词分组和噪声词分组；将非噪声词分组中各分词进行关键词抽取，得到未超出预设的排名阈值的关键词以组成关键词集合；根据关键词集合中包括的各关键词转对应化为词云，将各关键词对应的词云发送至用户端以进行显示。此外，本发明还涉及区块链技术，数据可存储于区块链节点中。该方法实现了对待稽核文本数据中文本的快速识别和关键词自动提取，并将关键词以词云的方式直观展示，提高关键词提取效率和准确率。

技术领域

本发明涉及人工智能的数据展示技术领域，尤其涉及一种文本关键词可视化显示方法、装置、计算机设备及存储介质。

背景技术

传统的数据挖掘一般的处理对象是结构化数据(例如是存储在数据表格中的多条标准化字段的数据)，但是现有的文本数据一般是非结构数据(可以理解为平面文件)，处理结构化数据的数据挖掘模型一般都不适用于处理非结构数据。

例如，对合同等具有法律效应的文本进行合规和稽核时，待稽核文本一般是docx、pdf等格式的文档(这些格式的文档可以理解为平面文件)，需对待稽核文本进行文本内容挖掘(例如获取文本的中心思想、核心关键词等)时，主要是人工阅读后进行，这就导致效率和准确率低下。而且人工阅读待稽核文本后所挖掘出的文本结果，也无直观的方式展示。

发明内容

本发明实施例提供了一种文本关键词可视化显示方法、装置、计算机设备及存储介质，旨在解决现有技术中对具有非结构数据的文本进行合规和稽核时，是通过人工阅读的方式进行文本内容挖掘，导致效率和准确率低下，而且无法对文本挖掘结果直观展示的问题。

第一方面，本发明实施例提供了一种文本关键词可视化显示方法，其包括：

接收待稽核文本数据，获取所述待稽核文本数据对应的纯文本数据；

将所述纯文本数据通过基于概率统计分词模型进行分词，得到对应的分词结果；

将所述分词结果进行噪声词过滤，得到分词过滤结果；其中，所述分词过滤结果中包括非噪声词分组和噪声词分组；

将所述分词过滤结果的非噪声词分组对应的各分词通过词频-逆文本频率指数模型进行关键词抽取，并按照词频-逆文本频率指数进行降序排序，得到所述分词过滤结果中未超出预设的排名阈值的关键词词向量对应的分词，以组成关键词集合；以及

根据所述关键词集合中包括的各关键词转对应化为词云，将各关键词对应的词云发送至用户端以进行显示。

第二方面，本发明实施例提供了一种文本关键词可视化显示装置，其包括：

文本数据获取单元，用于接收待稽核文本数据，获取所述待稽核文本数据对应的纯文本数据；

分词单元，用于将所述纯文本数据通过基于概率统计分词模型进行分词，得到对应的分词结果；

噪声词过滤单元，用于将所述分词结果进行噪声词过滤，得到分词过滤结果；其中，所述分词过滤结果中包括非噪声词分组和噪声词分组；