[发明专利]一种文档聚类检索系统在审

专利信息
申请号: 201911038276.8 申请日: 2019-10-29
公开(公告)号: CN110750696A 公开(公告)日: 2020-02-04
发明(设计)人: 陶智强;马小琴;陈章印;龙航;杨恺;王颖;王雯茜 申请(专利权)人: 贵州电网有限责任公司
主分类号: G06F16/906 分类号: G06F16/906;G06F16/903;G06F16/93;G06F40/289
代理公司: 52100 贵阳中新专利商标事务所 代理人: 商小川
地址: 550002 贵*** 国省代码: 贵州;52
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种文档聚类检索系统,它包括:文档上传预处理模块,将上传的文档内容加载到内存块中,读取内存块中的文档内容做分词处理得到文本特征集,将文本特征集指定唯一键值关联文档保存在数据库中;构建词袋模型模块,使文本特征集组成一个N维向量;聚类算法模块,通过用户输入的关键字在所有文本特征集中匹配,选取匹配文本特征集向量;运用概率分布模型算法LDA对匹配文本特征集向量进行聚类;结果输出模块,通过聚类算法模块返回的匹配文本特征集向量聚类的结果,通过的唯一键值关联文档,将关联的文档聚类推送给用户;解决了人为归档归类效率低下,差错率高等技术问题。
搜索关键词: 特征集 匹配文本 向量 关联文档 聚类算法 文档内容 文本 内存块 概率分布模型 结果输出模块 检索系统 差错率 读取 预处理模块 词袋模型 分词处理 归类效率 文本特征 文档聚类 文档上传 向量聚类 构建 归档 加载 聚类 上传 算法 文档 匹配 数据库 关联 返回
【主权项】:
1.一种文档聚类检索系统,它包括:/n文档上传预处理模块,将上传的文档内容加载到内存块中,读取内存块中的文档内容做分词处理得到文本特征集,将文本特征集指定唯一键值关联文档保存在数据库中;/n构建词袋模型模块,先将所有文本特征集中的词汇构建成一个词条列表,列表不含重复的词条;然后对每个文本特征集构建一个向量,向量的维度与词条列表的维度相同,向量的值是词条列表中每个词条在该文本中出现的次数;使文本特征集组成一个N维向量;/n聚类算法模块,通过用户输入的关键字在所有文本特征集中匹配,选取匹配文本特征集向量;运用概率分布模型算法LDA对匹配文本特征集向量进行聚类;/n结果输出模块,通过聚类算法模块返回的匹配文本特征集向量聚类的结果,通过的唯一键值关联文档,将关联的文档聚类推送给用户。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵州电网有限责任公司,未经贵州电网有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201911038276.8/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code