[发明专利]一种基于LDA主题模型的城市领域知识检测系统及方法有效
申请号: | 202010497669.1 | 申请日: | 2020-06-04 |
公开(公告)号: | CN111831802B | 公开(公告)日: | 2023-05-26 |
发明(设计)人: | 盛浩;李东霖;杨达;崔正龙;王思哲 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/35;G06F40/242;G06F40/284;G06F40/289;G06F40/30;G06Q50/26 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 安丽 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 lda 主题 模型 城市 领域 知识 检测 系统 方法 | ||
1.一种基于LDA主题模型的城市领域知识检测系统,其特征在于,包括:客户端与服务器端;在客户端部署认证与管理模块、文件上传模块和数据传输模块;在服务器端部署认证与管理模块、数据清洗模块、情感分析模块、分词与词性标注模块、关键词提取模块、聚类模块和数据传输模块,其中:
客户端认证与管理模块:一是获取用户身份信息并与服务器端认证与管理模块交互以验证用户身份的合法性,只有合法的用户才被允许进入操作界面进行后续操作;二是对客户端的文件上传模块和数据传输模块进行管理,控制与服务器端数据传输模块的交互;
客户端文件上传模块:用于用户上传待处理的数据文件至客户端数据传输模块;客户端文件上传模块包含可视化界面使上传的文件内容可见;客户端文件上传模块还包含一个爬虫子模块,爬取对应网址的城市领域知识信息,作为输入文件的补充或直接作为输入;
客户端数据传输模块:用于封装客户端数据信息并发送给服务器端,以及解析从服务器端数据传输模块接收的信息;所述客户端数据信息包括身份验证模块的用户身份信息、文件上传模块的数据文件、服务器端各模块支持用户自定义的各类参数及字典文件,数据传输是基于TCP/IP的,以保证传输的可靠性;对于文件的传输是基于FTP的,以保证传输效率;
服务器端认证与管理模块:一是维护一个用户数据库,对发起连接请求的客户端用户身份进行验证,若验证成功则返回通告信息并为该用户分配一块工作空间;二是对服务器端的数据清洗模块、情感分析模块、分词与词性标注模块、关键词提取模块、聚类模块和数据传输模块进行管理,控制与客户端数据传输模块的交互;
服务器端数据清洗模块:用于对接收到的原始数据进行数据清洗,得到清洗后的数据,以提高数据质量;服务器端数据清洗模块包括三个子模块:重复数据清洗模块、无价值数据清洗模块和特殊符号清洗模块;其中重复数据是指字符相同或语义相近的数据,无价值数据是指与用户所要提取的领域知识无关的数据,特殊符号是指由于编码或解码方式不同而产生的乱码或是与领域知识无关的特殊符号;重复数据清洗模块接收用户设置的清洗参数,按用户要求进行重复数据的清洗;无价值数据清洗模块接收用户输入的模式字符串,按匹配规则对无价值数据进行清洗;特殊符号清洗模块维护一个特殊符号库,包含网络上常用的各种特殊符号,依照特殊符号库对数据进行一个更强的过滤;
服务器端分词与词性标注模块:用于对清洗后的数据进行分词与词性标注,所述数据切分成词并标注其词性;服务器端分词与词性标注模块维护一个中文词典,中文词典包含几乎所有的中文词与中文词词性注释,对于输入至服务器端分词与词性标注模块中的每一条数据,按照双向最大匹配算法对每条数据进行扫描,将每条数据切分成词并标注词性信息;服务器端分词与词性标注模块还接收用户上传的自定义分词词典,替换或补充默认词典进行分词与词性标注,以满足不同领域的分词需要;最后得到分词与词性标注后的数据;
服务器端关键词提取模块:用于对分词与词性标注后的数据进行关键词的提取;通过基于LDA主题模型的关键词提取算法先进行词性过滤,筛选出候选关键词,再通过逆TF-IDF算法对候选关键词初步赋权,之后基于LDA模型对候选关键词赋权,计算加权权值作为每个候选关键词的总权值,最后提取出权重最高的指定数量关键词,并生成关键短语;LDA模型是一种主题模型,通过LDA模型获取每条数据的词分布和主题分布,进而通过计算余弦相似度即获得权重;
服务器端聚类模块:用于对相似的关键短语进行聚类;聚类时预先训练一个word2vec模型,然后把所有输入的关键短语转换成word2vec词向量,计算词向量之间的相似度,按照用户设置的相似度阈值来聚类语义相似的关键短语;聚类完成后,统计各关键短语的词频并排序,生成城市领域知识报告返回给客户端;所述城市领域知识即城市各领域信息化的数据,包括交通流量数据、电商用户评论数据、社交网络行为数据,以及所有具有一定规模数据量的可搜集的城市领域信息;
服务器端数据传输模块:用于封装服务器端认证与管理模块、数据清洗模块、情感分析模块、分词与词性标注模块、关键词提取模块和聚类模块的信息并发送给客户端,以及解析从客户端数据传输模块接收的信息,服务器端数据信息包括认证与管理模块、数据清洗模块、情感分析模块、分词与词性标注模块、关键词提取模块返回的处理信息和生成的中间文件、聚类模块生成的最终聚类结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010497669.1/1.html,转载请声明来源钻瓜专利网。