[发明专利]一种自动化中文文本主题探索的方法及系统有效

专利信息
申请号: 202011603044.5 申请日: 2020-12-29
公开(公告)号: CN112560469B 公开(公告)日: 2023-07-04
发明(设计)人: 张荣显 申请(专利权)人: 珠海横琴博易数据技术有限公司
主分类号: G06F40/284 分类号: G06F40/284;G06F18/23213;G06F40/258;G06F40/216;G06F40/49
代理公司: 中山市铭洋专利商标事务所(普通合伙) 44286 代理人: 梁伟生
地址: 519000 广东省珠海*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 自动化 中文 文本 主题 探索 方法 系统
【权利要求书】:

1.一种自动化中文文本主题探索的方法,其特征在于,包括如下步骤:

步骤1、对中文文本进行切词,筛选出名词、动词、形容词和副词;

步骤2、使用TF-IDF算法对筛选出的名词、动词、形容词和副词构建词向量,将中文文本向量化预处理,将文本数据转换成空间的向量点,再使用TruncatedSVD奇异值分解方法将高维向量空间数据进行降维;

其中,TF=词条出现的次数/所有词条总数,IDF= log(语料库文档总数/包含指定词条的文档数+1),TF-IDF=TF×IDF,得到每个词的TF-IDF值后,将每个关键词的TF-IDF值按照关键词排列顺序,以构建句向量;

步骤3、使用Mini Batch K-Means聚类方法对文本进行聚类;

步骤4、使用情感分析方法来分析文本的情感倾向;将聚类结果与情感分析结果交叉统计,获得各类文章整体的情感倾向分布;按照词频高低提取每类排名前N名的关键词来作为各类的语义关键词,依据使用Mini Batch K-Means聚类方法计算得到的每类中心点,选取该中心点或最近中心点的文章作为该类代表文章;

步骤5、获得的聚类信息通过可视化方法展示,用户通过聚类结果以及每个子类提供的辅助信息来总结和归纳每类的主题信息,以完成文本主题探索,且聚类结果数据可以保存在一个变量中,供用户调用,可以与其他维度变量进行交叉分析。

2.根据权利要求1所述的一种自动化中文文本主题探索的方法,其特征在于:所述可视化方法包括词云图、饼图和/或列表。

3.根据权利要求1所述的一种自动化中文文本主题探索的方法,其特征在于,步骤4中所述的N为大于等于1,小于等于10的正整数。

4.一种自动化中文文本主题探索系统,其特征在于,包括:

词向量构建模块,在该模块对中文文本进行切词,筛选出名词、动词、形容词和副词,再使用TF-IDF算法对筛选出的名词、动词、形容词和副词构建词向量,将中文文本向量化预处理,将文本数据转换成空间的向量点,再使用TruncatedSVD奇异值分解方法将高维向量空间数据进行降维,其中,TF=词条出现的次数/所有词条总数,IDF = log(语料库文档总数/包含指定词条的文档数+1),TF-IDF=TF×IDF,得到每个词的TF-IDF值后,将每个关键词的TF-IDF值按照关键词排列顺序,以构建句向量;

文本聚类模块,在该模块中使用Mini Batch K-Means聚类方法对文本进行聚类;使用情感分析方法来分析文本的情感倾向;将聚类结果与情感分析结果交叉统计,获得各类文章整体的情感倾向分布;按照词频高低提取每类排名前N名的关键词来作为各类的语义关键词,依据使用Mini Batch K-Means聚类方法计算得到的每类中心点,选取该中心点或最近中心点的文章作为该类代表文章;

可视化模块,在该模块中根据获得的聚类信息通过可视化方法展示,用户通过聚类结果以及每个子类提供的辅助信息来总结和归纳每类的主题信息,以完成文本主题探索,且聚类结果数据可以保存在一个变量中,供用户调用,可以与其他维度变量进行交叉分析。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于珠海横琴博易数据技术有限公司,未经珠海横琴博易数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011603044.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top