[发明专利]一种自动化中文文本主题探索的方法及系统有效
申请号: | 202011603044.5 | 申请日: | 2020-12-29 |
公开(公告)号: | CN112560469B | 公开(公告)日: | 2023-07-04 |
发明(设计)人: | 张荣显 | 申请(专利权)人: | 珠海横琴博易数据技术有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F18/23213;G06F40/258;G06F40/216;G06F40/49 |
代理公司: | 中山市铭洋专利商标事务所(普通合伙) 44286 | 代理人: | 梁伟生 |
地址: | 519000 广东省珠海*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自动化 中文 文本 主题 探索 方法 系统 | ||
1.一种自动化中文文本主题探索的方法,其特征在于,包括如下步骤:
步骤1、对中文文本进行切词,筛选出名词、动词、形容词和副词;
步骤2、使用TF-IDF算法对筛选出的名词、动词、形容词和副词构建词向量,将中文文本向量化预处理,将文本数据转换成空间的向量点,再使用TruncatedSVD奇异值分解方法将高维向量空间数据进行降维;
其中,TF=词条出现的次数/所有词条总数,IDF= log(语料库文档总数/包含指定词条的文档数+1),TF-IDF=TF×IDF,得到每个词的TF-IDF值后,将每个关键词的TF-IDF值按照关键词排列顺序,以构建句向量;
步骤3、使用Mini Batch K-Means聚类方法对文本进行聚类;
步骤4、使用情感分析方法来分析文本的情感倾向;将聚类结果与情感分析结果交叉统计,获得各类文章整体的情感倾向分布;按照词频高低提取每类排名前N名的关键词来作为各类的语义关键词,依据使用Mini Batch K-Means聚类方法计算得到的每类中心点,选取该中心点或最近中心点的文章作为该类代表文章;
步骤5、获得的聚类信息通过可视化方法展示,用户通过聚类结果以及每个子类提供的辅助信息来总结和归纳每类的主题信息,以完成文本主题探索,且聚类结果数据可以保存在一个变量中,供用户调用,可以与其他维度变量进行交叉分析。
2.根据权利要求1所述的一种自动化中文文本主题探索的方法,其特征在于:所述可视化方法包括词云图、饼图和/或列表。
3.根据权利要求1所述的一种自动化中文文本主题探索的方法,其特征在于,步骤4中所述的N为大于等于1,小于等于10的正整数。
4.一种自动化中文文本主题探索系统,其特征在于,包括:
词向量构建模块,在该模块对中文文本进行切词,筛选出名词、动词、形容词和副词,再使用TF-IDF算法对筛选出的名词、动词、形容词和副词构建词向量,将中文文本向量化预处理,将文本数据转换成空间的向量点,再使用TruncatedSVD奇异值分解方法将高维向量空间数据进行降维,其中,TF=词条出现的次数/所有词条总数,IDF = log(语料库文档总数/包含指定词条的文档数+1),TF-IDF=TF×IDF,得到每个词的TF-IDF值后,将每个关键词的TF-IDF值按照关键词排列顺序,以构建句向量;
文本聚类模块,在该模块中使用Mini Batch K-Means聚类方法对文本进行聚类;使用情感分析方法来分析文本的情感倾向;将聚类结果与情感分析结果交叉统计,获得各类文章整体的情感倾向分布;按照词频高低提取每类排名前N名的关键词来作为各类的语义关键词,依据使用Mini Batch K-Means聚类方法计算得到的每类中心点,选取该中心点或最近中心点的文章作为该类代表文章;
可视化模块,在该模块中根据获得的聚类信息通过可视化方法展示,用户通过聚类结果以及每个子类提供的辅助信息来总结和归纳每类的主题信息,以完成文本主题探索,且聚类结果数据可以保存在一个变量中,供用户调用,可以与其他维度变量进行交叉分析。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于珠海横琴博易数据技术有限公司,未经珠海横琴博易数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011603044.5/1.html,转载请声明来源钻瓜专利网。