[发明专利]非结构化数据分析系统和方法在审
申请号: | 202011265115.5 | 申请日: | 2016-06-28 |
公开(公告)号: | CN112732878A | 公开(公告)日: | 2021-04-30 |
发明(设计)人: | 汪晓宇 | 申请(专利权)人: | 斯图飞腾公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F16/34 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 穆童 |
地址: | 美国北卡*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 结构 数据 分析 系统 方法 | ||
一种非结构化数据分析系统,包括:非结构化数据分析算法,其驻留在服务器上并可经由浏览器访问,所述非结构化数据分析算法可操作用于:从一个或更多个远程源接收非结构化数据,向非结构化数据应用一个或更多个分析工具,以及向一个或更多个用户显示总结信息;其中在呈现层、探索层和注释层中向所述一个或更多个用户显示所述总结信息。所述非结构化数据分析算法还可操作用于从一个或更多个远程源接收外部数据。所述呈现层显示下述中的一个或更多个:非结构化数据、非结构化数据的总结、以及总结信息。所述探索层允许一个或更多个用户修改总结信息的粒度,由此修改呈现层的粒度。一个或更多个用户可以经由注释层同时与非结构化数据分析系统进行交互。
本申请是申请日为2016年6月28日的题为“非结构化数据分析系统和方法”的中国发明专利申请No.201610496280.9的分案申请。
相关申请的交叉引用
本专利申请/专利要求共同未决的在2015年5月11日递交的标题为“UNSTRUCTUREDDATA ANALYTICS SYSTEMS AND METHODS INCLUDING A VISUALIZATION INTERFACE”的美国临时专利申请No.62/159,662以及在2015年5月11日递交的标题为“UNSTRUCTURED DATAANALYTICS SYSTEMS AND METHODS INCLUDING NATURAL LANGUAGE PROCESSING ANDSTATISTICS FUNCTIONS”的美国临时专利申请No.62/159,683的优先权,通过引用将这二者的全部内容并入本文。
技术领域
本发明一般涉及用于分析大文本语料和非结构化数据的方法和系统。更具体地,本发明涉及使用可视化分析和话题建模、可视化界面、以及自然语言处理及统计功能分析大文本语料和非结构化数据的方法和系统。
背景技术
对文本信息和非结构化数据的大量且日益增长的集合的管理是一个挑战性的问题。知识丰富的文本信息的数据存储库已经变得普及,导致要整理、发掘和分析海量数据。随着文档数量的增加,学习文本语料的含义变得认知成本高昂且耗时。
对于自然语言处理(NLP)领域中的研究者,对大文本语料的自动总结这一挑战已经成为主要关注点。为了总结文本语料,研究者已经开发了诸如用于提取并表示词语的上下文使用环境下的含义的隐含语义分析(LSA)之类的技术。LSA产生可以用于文档分类和聚类的概念空间。最近,已经出现了作为用于找到非结构化文本集合中的语义上有意义的话题的有利新技术的概率话题模型。为了进一步提供对文本语料的可视化总结,来自知识发现和可视化社区领域的研究者已经开发了用以基于LSA和概率话题模型(probabilistictopic models)二者支持大文本语料的可视化(visualization)和探索(exploration)的工具和技术。
尽管概率话题模型已经在解释和语义关联方面证明了它们的优势,但是几乎没有交互可视化系统已经利用这种模型来支持对文本语料的探索和分析。基于范例的可视化和概率隐含语义可视化方法已经在估计文本语料的话题的同时将文档投射到语义二维(2D)图表上。尽管文档簇良好地服从所选标签,但是几乎不存在对文档簇的交互探索和分析的机会。一个例外是基于时间的可视化系统TIARA,其应用河流图(ThemeRiver)隐喻以基于话题内容可视化地总结文本集合。通过TIARA系统的分析,用户能够回答诸如以下问题:文档语料中的主要话题是什么?以及话题是如何随时间演进的?
然而,当分析大文本语料时,存在当前文本分析可视化系统难以回答的许多其他现实世界问题。具体地,关于话题和文档之间的关系的问题难以用现有工具解答。这种问题包括:基于文档的话题分布的文档特征是什么?以及什么文档一次包括多个话题(以及这多个话题是什么)?在科学策略的领域中,例如具有多个话题的文档可以指示跨学科的(即,涵盖多于一个知识体)出版物。类似地,在社交媒体分析的上下文中,具有多个话题的文档可以表示与不同的热点话题相关的唯一新闻文章。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于斯图飞腾公司,未经斯图飞腾公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011265115.5/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置