[发明专利]一种基于文本聚类的主题词提取方法在审
申请号: | 202110060987.6 | 申请日: | 2021-01-18 |
公开(公告)号: | CN112749279A | 公开(公告)日: | 2021-05-04 |
发明(设计)人: | 肖林焱;杨安印 | 申请(专利权)人: | 南京中新赛克科技有限责任公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62;G06F16/31;G06F16/33;G06F40/194;G06F40/284 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 210012 江苏省南京*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于文本聚类的主题词提取方法,对文本信息进行分词处理;对干扰词积累形成停用词库,加载文本分词集合;针对处理词文档,计算文档词频TF,计算逆文档词频IDF;新建Kmeans模型,训练出各聚类中心词频及其预测值,使用余弦相似度计算文本词之间相似度;输出Kmeans聚类结果,每个聚类集合;对各个聚类集合进行LDA文档主题预测;针对文档到词的权重分布,提取TOPN主题,形成集合Mi;针对集合Mi,分词后的文本记录词库与集合Mi碰撞。本发明通过多方联合分析,对无监督学习主题提取方法进行有益补充;不依赖现有数据分析平台,适用于各类编程语言;结合Kmeans聚类方法,LDA主题模型分析,个性化碰撞规则,对大数据文本主题词提取进行有效支撑。 | ||
搜索关键词: | 一种 基于 文本 主题词 提取 方法 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京中新赛克科技有限责任公司,未经南京中新赛克科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/202110060987.6/,转载请声明来源钻瓜专利网。
- 上一篇:一种青藤碱生物素标记探针及其制备方法和用途
- 下一篇:PVC卷材用的抗菌涂料