[发明专利]异构信息知识挖掘与可视化分析系统及方法无效
申请号: | 201210025598.0 | 申请日: | 2012-02-07 |
公开(公告)号: | CN102609512A | 公开(公告)日: | 2012-07-25 |
发明(设计)人: | 李春梅;李艾丹;薛中玉;郭秋梅;杨思维;张志朋;桑道静 | 申请(专利权)人: | 北京中机科海科技发展有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100048 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 信息 知识 挖掘 可视化 分析 系统 方法 | ||
1.一种异构信息知识挖掘与可视化分析系统,包括用于提供丰富的人机交互接口的用户层,用于分析语料、挖掘知识和可视化分析的系统工具层,用于存储和提供最初语料、中间产物和分析结果的数据资源层;其中系统工具层包括用于接收和处理用户提供相关资料的语料预处理子系统、用于分析和挖掘语料中相关知识的知识挖掘子系统和用于动态显示和统计分析检索结果的可视化分析子系统。
2.根据权利要求1所述的异构信息知识挖掘与可视化分析系统,其特征在于,所述的用户层包括信息检索和动态知识展示。其中信息检索包括目录导航、语义查询、相关资源、相关概念和扩展概念;动态知识展示包括本体知识图、资源分布图、Web知识图、文档知识图和统计分析图。
所述的目录导航,用于显示系统自动聚类的某一领域的层次结构信息,每个节点后显示节点下的网页资源个数。
所述的语义查询,用于支持用户对关键词、词组和简单语句的查询,并通过本体推理查询,形成语义查询检索式,返回语义索引库中的相关信息,支持对查询结果中各条信息的语义关系图形化预览。
所述的相关资源,用于显示每一个查询结果的相关资源,根据用户最终选择查看的网页特点,进行聚类,并向用户推荐相同类别的网页资源。
所述的相关概念,用于提供语义查询中形成的查询语义向量中各维概念的同义词和相关词汇列表,有利于用户发散思维,提供更全的视角和更相关的检索结果。
所述的扩展概念,用于显示用户输入关键词在本体中的上下位概念。
所述的本体知识图,用于图形化显示领域本体的概念、概念间关系、属性、实例等知识体系。
所述的资源分布图,用于图形化显示系统自动聚类的某领域层次结构信息每个节点的网页资源个数,以及与用户输入检索内容相关资源的分布情况。
所述的Web知识图,用于图形化预览检索结果中各网页的知识结构图,并可以查看相关网页所在网站的整体知识网络图。
所述的文档知识图,用于图形化显示用户上传文档的知识结构图,显示文档中核心概念以及概念之间关系。
所述的统计分析图,用于采用饼状图、柱状图和折线图显示系统聚类体系中各节点资源比例、系统新增资源比例、查询结果中各节点资源比例等等。
3.根据权利要求1所述的异构信息知识挖掘与可视化分析系统,其特征在于,所述的语料预处理子系统包括语料管理模块、网络爬虫模块、信息抽取模块、信息去噪模块。
所述的语料管理模块,用于管理网络抓取资料和用户上传的各类语料资源,包括对上传语料的添加、删除、分类,并实现对单篇、多篇、单文件夹、多文件夹以及全部资源的选择,以便进行下一步的分析处理。
所述的网络爬虫模块,用于对网页抓取引擎的设置和对网页抓取资源的监控,并实现对与用户设置的初始网址、前缀、关键词等相关的网页的镜像抓取和定期更新。
所述的信息抽取模块,用于对选中的多种格式(包括pdf、word、ppt、txt、xls和网页等)的文档文件中的信息进行抽取,解决pdf文件内容为扫描格式或软件识别格式时出错问题,提高文档内容为分栏或有插图、插表时提取结果的准确性。
所述的信息去噪模块,用于去除各类文件中的无用信息(包括乱码、标签、页眉、页脚等),并确保有用信息完整保留。
4.根据权利要求1所述的异构信息知识挖掘与可视化分析系统,其特征在于,所述的知识挖掘子系统包括核心概念识别、概念关系抽取、摘要关键词和信息分类聚类。
所述的核心概念识别,用于基于智能分词中扩展词性标识,识别领域概念,记录包含领域概念的句子,用于统计语料中的单词概念和组合概念的权重和领域相关性,最终识别和确定领域的核心概念,形成领域相关概念集。
所述的概念关系抽取,用于抽取核心语句中有用的、领域相关的概念间关系,具体包括上下位继承关系、同义关系、属性关系和实例关系等。
所述的摘要关键词,用于基于领域概念识别结果,参考统计等关键词抽取算法,提取2至4个最能体现文档主题的词语;基于分词结果和领域概念识别结果,以句为单位计算每句中领域概念出现次数,选择2至4句出现领域概念最多的句子作为文档摘要。
所述的信息分类聚类,用于基于文档中识别出的领域词汇并重点考虑文档的关键词,根据词汇出现频率,设置一定的权重,映射到导航目录体系中,每篇文档可以映射体系中多个节点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中机科海科技发展有限公司,未经北京中机科海科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210025598.0/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置