[发明专利]一种基于LDA主题模型的城市领域知识检测系统及方法有效
申请号: | 202010497669.1 | 申请日: | 2020-06-04 |
公开(公告)号: | CN111831802B | 公开(公告)日: | 2023-05-26 |
发明(设计)人: | 盛浩;李东霖;杨达;崔正龙;王思哲 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/35;G06F40/242;G06F40/284;G06F40/289;G06F40/30;G06Q50/26 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 安丽 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 lda 主题 模型 城市 领域 知识 检测 系统 方法 | ||
本发明涉及一种基于LDA主题模型的城市领域知识检测系统及方法,用于生成智慧城市某领域的领域知识报告;系统采用C/S架构,运用模块化的系统设计,包含认证与管理模块、文件上传模块、数据清洗模块、情感分析模块、分词与词性标注模块、关键词提取模块、聚类模块和数据传输模块。本发明充分利用了城市信息化过程中产生的大规模领域知识数据,可为用户自动地生成城市领域知识报告,进而应用到诸如交通预警、舆情监测等领域,设计良好,运行稳定,无需部署环境即可使用,具有较强的实际应用价值。模块都是可更新、可替换的,可以适用于未来可能需要的维护、改进和扩展。针对不同用户的个性化需要,各个模块均提供可自定义的参数或文件,使得系统既满足普通用户一般化的需要,也满足专业用户定制化的需要。
技术领域
本发明涉及一种基于LDA主题模型的城市领域知识检测系统及方法,具体说是一种基于LDA主题模型的城市领域知识检测系统及方法,属于大数据与自然语言处理交叉应用领域。
背景技术
随着硬件算力的提高和软件算法的完善,计算机已经能够在较短时间内处理海量的数据。在云计算时代,利用大数据对城市进行监测和管理已经成为可能,城市大数据成为目前炙手可热的话题。在此基础上,“智慧城市”的概念被提出。智慧城市是把新型信息技术充分运用到城市中的各个地理位置,各个领域,各行各业,是城市信息化的一种高级形态。
信息的交换与共享是智慧城市的主要活动。城市中的工商数据、交通信息、居民的社交言论等,均是信息,统称为城市的领域知识。领域知识模型是描述智慧城市信息系统的一个核心概念,包含智慧城市中的实体、服务、事件等全部信息。
由于智慧城市的领域知识数据具有总量大、来源广、信息杂的特点,使得对于领域知识的应用出现了困难。如果采用人工方法处理,不仅费时费力,不能保证正确性,而且还不能及时跟进最新数据。因此本发明提出了一种基于LDA主题模型的城市领域知识检测方法,并设计了一个完善的城市领域知识检测平台,运用自然语言处理技术处理领域知识,消除低质量的信息,并提取关键信息生成领域知识报告,为用户提供精确的城市领域知识,进而应用到诸如交通预警、舆情监测等领域。
基于LDA主题模型的城市领域知识检测技术研究的目的在于以城市大数据信息为数据源,利用计算机数据处理技术的高效率、高准确率、低成本,对城市领域知识进行提取,生成城市领域知识报告,使用户获取关键信息,并用于进阶领域。
发明内容
本发明技术解决问题:针对智慧城市建设中数据多而杂的情况,提出了一种基于LDA主题模型的城市领域知识检测系统及方法,能快速、准确地处理数据,使用户能获取关键城市领域知识,并针对性地用于交通预警、舆情监测等领域。
本发明为一种基于LDA主题模型的城市领域知识检测系统,以城市信息化过程中产生的大规模领域知识为基础,运用自然语言处理技术提取关键信息,生成城市领域知识报告,提出了一个基于LDA主题模型的关键词提取算法,能结合城市领域知识的特点和中文语言的结构提取出包含城市领域知识信息的关键短语;
所述系统包括客户端与服务器端;在客户端部署认证与管理模块、文件上传模块和数据传输模块;在服务器端部署认证与管理模块、数据清洗模块、情感分析模块、分词与词性标注模块、关键词提取模块、聚类模块和数据传输模块,其中:
客户端认证与管理模块:一是获取用户身份信息并与服务器端认证与管理模块交互以验证用户身份的合法性,只有合法的用户才被允许进入操作界面进行后续操作;二是对客户端的文件上传模块和数据传输模块进行管理,控制与服务器端数据传输模块的交互;
客户端文件上传模块:用于用户上传待处理的数据文件至客户端数据传输模块,支持后缀名为“.xls”、“.xlsx”、“.csv”和转化为“.csv”的“.txt”文件;客户端文件上传模块包含一个可视化界面使上传的文件内容可见,用户对每列对应的内容进行声明,最多支持20个变量,满足用户对不同列的过滤需求;客户端文件上传模块还包含一个爬虫子模块,爬取对应网址的城市领域知识信息,作为输入文件的补充或直接作为输入;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010497669.1/2.html,转载请声明来源钻瓜专利网。