[发明专利]用于评估趋势分析系统的方法和装置有效
申请号: | 200710192728.9 | 申请日: | 2007-11-16 |
公开(公告)号: | CN101196907A | 公开(公告)日: | 2008-06-11 |
发明(设计)人: | 竹内广宜;宅间大介 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市金杜律师事务所 | 代理人: | 朱海波 |
地址: | 美国纽*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 评估 趋势 分析 系统 方法 装置 | ||
技术领域
本发明涉及一种趋势分析系统,并且特别地涉及一种自评估趋势分析系统。
背景技术
文本挖掘是趋势分析技术之一,用于主要基于使用自然语言处理的信息提取的结果,通过找出关于关键词的信息片的总数和在被包含于文档集合内的各关键词之间的依赖性信息来分析趋势和知识。为了将趋势分析系统实际引入到一新位置,必须提供像用户字典这样的语言资源并且必须根据该位置的情况来调整参数,使得趋势分析系统将能够执行优化分析。然而,这种调整是在反复试验的基础上以及/或者在经验的基础上执行的,并且没有任何技术可用于度量调整结果的有效性。此外,这种调整还需要大量的时间和人力。
在诸如从文档中提取或检索信息之类的技术的情况下,一般通过执行从事先被给予了属性的正确答案以及属性之间的关联的正确答案的文档中提取或检索信息,以及通过比较该执行结果与对提取结果或检索结果的测量,来评估系统或技术。另一方面,在目标是从文档集合中提取关联、知识和趋势的趋势分析系统的情况下,在实际在已安装的地点中使用该系统的同时,验证对所获得的结果的有效性的评估。换言之,还没有建立一种机制用于定量和定性地评估常规趋势分析系统。因此,当趋势分析系统中的某个部件被改善时,很难客观地评估该系统将被增强的程度。以下等式已被用来计算在常规系统评估中所使用的准确度。
准确度=(系统正确地提取的关联的数目+系统正确地提取的不关联的数目)/系统提取的总数目。除了上面的考虑了正确的确定的计算方法之外,还存在另一种考虑了错误的确定的准确度计算方法。错误的确定包括两种类型,即假阳性和假阴性。这两种类型在常规的准确度中被当成是相同的确定类型来处理,并且由此在准确度中不能反映在各用户地点之间的差异。日本专利申请未审公开号No.2005-237441是相关现有技术的一个例子。
发明内容
已做出本发明用于解决上述技术问题。本发明的目的是:
提供一种装置,用于客观地评估从数据集中提取关联、趋势和知识的趋势分析系统;
提供一种趋势分析系统,其提取数据集中各数据片的属性之间的关联,并通过对该系统执行定量的评估来对该系统执行自调整;
提供一种自评估趋势分析系统,其通过使用包含正确信息的相关数据执行对从数据集等等中提取关联信息片、趋势信息片和知识信息片的功能的定量的自评估,并执行针对功能的调整,该正确信息指示了关于属性之间的关联、以及属性的趋势和知识的信息;
提供一种方法,该方法用于通过使用从用户分别针对系统所做出的假阳性和假阴性设置的容许范围所计算的权重,将准确度计算成用于求得系统评估的定量结果的指示符;以及
提供一种方法,用于根据包含正确信息的相关数据求得用于计算指示符的不是作为任意值而是作为统计上合适的值的权重,以合理地评估系统。
根据本发明,提供了一种趋势分析系统,用于从数据集等等中提取属性之间的关联(例如,A和B有关联)。在可以获得包含正确信息的相关数据的情况下,所述趋势分析系统通过使用指示符来对该系统自身执行定量评估并且接着执行自调整,该正确信息包括关于属性之间的已知关联的信息。所述评估指示符指示由系统从数据集中提取的关联/趋势信息覆盖了多少包含正确信息的相关数据中的信息,该正确信息指示存在或不存在关联。通过使用一种确定该评估指示符的方法来执行对该系统的定量评估。
根据本发明,从由用户分别设置的针对假阳性和假阴性的数目的容许范围求得用于假阳性和假阴性的数目的惩罚分数(权重),并接着通过使用该惩罚分数来计算准确度。如果所述惩罚分数被给定为任意值,则该系统不能被合理地评估,并且由此可能执行不合适的调整和反馈。出于这种原因,在本发明中,求得用于包含着正确信息的相关数据的统计上适合的惩罚分数,以便合理地评估该系统。本发明的趋势分析系统可以不通过使用包含正确信息的相关数据而通过使用这些惩罚分数来找出合理的准确度。当通过调整参数或更新用于下一次挖掘的字典来改变系统时,系统执行客观的自评估,其示出根据关联信息或趋势信息的存在或不存在(二进制分配问题)由系统所提取的假阳性和假阴性的数目相比用户所希望的数目被改善多少。接着,系统基于评估结果执行自调整。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710192728.9/2.html,转载请声明来源钻瓜专利网。