[发明专利]一种基于人机交互的机会信息动态挖掘方法无效
申请号: | 201110297526.7 | 申请日: | 2011-10-08 |
公开(公告)号: | CN102364466A | 公开(公告)日: | 2012-02-29 |
发明(设计)人: | 王浩;庞旭林;韩冰;黄健;姚佳 | 申请(专利权)人: | 王浩 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100083*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 人机交互 机会 信息 动态 挖掘 方法 | ||
技术领域
本发明涉及一种数据处理技术,特别涉及一种基于人机交互的机会信息 文动态挖掘方法。
背景技术
2000年日本学者Yukio Ohsawa首次提出“机会发现”(Chance Discovery) 理论,其目的是提供一种方法去发现对人的未来决策有重要影响的罕见(低 频)而且重要的事件。为了支持机会发现的过程,一个事件拓扑可视化工具 KeyGraph被开发,此工具属于文本挖掘的知识范畴。
2005年Ohsawa提出了数据结晶法(Data Crystallizaton),其目标是揭 示事件间潜在结构,包括不可见事件,向原始文本数据相应的行中插入虚拟 事件(Dummy Event)用来代表不可见事件,然后用KeyGraph处理这个新 的文本数据,这样部分虚拟事件最终会作为机会节点显示在可视化图中,依 靠人对图中节点之间的可视化结构来认知这些虚拟事件,即不可见事件。
2006年Yoshiharu Maeno和Yukio Ohasawa提出了人机交互退火方法 (Human-Computer Interactive Annealing Method)作为数据结晶法和机会发 现过程的扩展。
尽管在机会发现这个新领域中提出了一些方法在动态变化环境中对重 要不可见事件(Invisible Events)进行有效挖掘。如数据结晶法,和人机交 互退火法。但是是假设这个不可见事件已经存在,因此将虚拟事件当做不可 见事件插入到原始文本数据中,事实上插入的虚拟数据本身没有任何意义, 而是依靠具有相关经验的人(专家,学者等)对含有这些虚拟数据的可视化 图进行猜测这些虚拟节点具体意义。因此,目前存在的方法有如下技术缺陷:
(1)由于虚拟事件源插入到原始数据的位置具有不确定性,因此无法 判断这个虚拟数据在原始数据的缺失位置。目前方法是向处理后的文本数 据,即向购物篮数据中对不相同的数据行结尾添加不同单个虚拟事件。事实 上是基于这些行中有数据缺失的理想假设。
(2)尽管目前的方法涉及到动态人机交互,但主要支持工具仍然只是 静态KeyGraph工具。并没有一个强大的系统软件支持这种交互方法。事实 上目前方法仍然属于静态挖掘方法。
(3)机会发现这个崭新的领域发展近10年,一直围绕具有单一算法的 KeyGraph工具进行罕见且重要事件(即机会)的挖掘与可视化,主要应用 于商业。迫切需要建立全新的,真正的动态系统方法,以及设计和开发集成 多种机会发现算法以及多模式可视化图生成于一身的机会挖掘系统软件。
如前所述,KeyGraph算法最初是用来对文本数据关键词抽取的方法。 算法本身仍然存在不足,需要进一步深化研究。
以上技术缺陷是现有方法技术、软件系统在应用中的缺陷,具体从数据 挖掘算法来讲,目前广泛使用的KeyGraph算法还有如下不足:
1、所提供的数据挖掘算法不支持动态挖掘功能。
尽管KeyGraph算法支持用户插入虚拟数据,但数据插入是盲目的、没 有根据的,所以尽管可以进行重新计算和理解,但此过程的实质为静态方法。
2、KeyGraph算法有机会信息提取遗漏、甚至算法失效的危险
KeyGraph算法中提取重要事件之前,首先计算由多个事件组成的聚类, 然后根据这些聚类计算事件的Key值,计算某事件Key值时,要求此事件 与聚类内所有事件同时出现,而在生成聚类计算时并没有要求此聚类内所有 事件同时出现,因此事件Key值计算时事件与聚类内所有事件同时出现的要 求太苛刻了。如果某个事件与聚类联系很紧密,但没有与聚类内所有事件同 时出现的情况出现,则此重要事件很可能被遗漏,随着此重要事件的遗漏, 对应的重要关联关系也会被遗漏。如果多个重要事件和关联关系都被遗漏, 最终会导致KeyGraph算法失效。
KeyGraph只侧重关键事件的挖掘而忽略事件之间重要关系的挖掘。
3、在KeyGraph算法中,机会信息仅仅是指有重要价值的事件,而不包 括事件之间的关联关系,适合文本挖掘。但对商业信息挖掘和预测而言,除 了重要事件之外,还需要清楚地了解各事件之间的关联关系,因此KeyGraph 算法挖掘计算结果不够全面。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于王浩,未经王浩许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110297526.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种新型单螺杆式输运泵
- 下一篇:一种可快速开启防护罩装置
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置