[发明专利]二元关系提取装置、使用二元关系提取处理的信息检索装置、二元关系提取处理方法、使用二元关系提取处理的信息检索处理方法、二元关系提取处理程序、以及使用二元关系提取处理的信息检索处理程序无效
申请号: | 200680022356.9 | 申请日: | 2006-06-23 |
公开(公告)号: | CN101253497A | 公开(公告)日: | 2008-08-27 |
发明(设计)人: | 村田真树;三森智裕;土井晃一;福田安志 | 申请(专利权)人: | 独立行政法人情报通信研究机构 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 中国专利代理(香港)有限公司 | 代理人: | 王岳;刘宗杰 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 二元关系 提取 装置 使用 处理 信息 检索 方法 程序 以及 | ||
技术领域
本发明涉及使用有教师的机器学习处理从文本数据中提取具有二元关系的表达(词、字符串等)的对的二元关系提取技术和使用二元关系提取处理的信息检索技术。
背景技术
从文本数据库等之中提取信息的方法已知有着眼于关联语句的二元关系来提取所希望的信息的方法。例如,非专利文献1的方法是,提供用以提取使用句法分析结果即谓语项结构所得的信息的模式格架(pattern frame),并从带有正确解答的语料库中提取,将提取到的模式之中不合适的模式排除掉,使用按照这种方式挑选出来的模式提取适宜的信息。
非专利文献1:药师寺AKANE(あかね)等著,《使用谓语项结构模式的医学/生物学领域信息提取》,语言处理学会第11次年会,2005年3月
发明内容
本发明试图解决的课题
目前,人们主要使用利用人工制作的模式进行二元关系提取处理的方法。另外,在非专利文献1的方法中,为了提高模式的精度,通过与学习语料库进行对照来对模式进行挑选,以图提高二元关系的提取处理的精度。
但是,在使用模式作为二元关系提取规则的情况下,如果问题对象变得复杂,则模式就会变得繁杂。因此,使用模式的方法有其局限性。另外,也存在着提取方法的性能不高的问题。
本发明的目的是提供一种在从文本数据中提取二元关系的全部问题中都能够使用的、对于复杂的问题也能够高性能地提取二元关系的二元关系提取装置。另外,本发明的另一个目的是提供使用上述二元关系提取处理的信息检索装置以及通过这些装置执行的各处理方法和用于在计算机中实现这些装置的功能的程序。
课题解决办法
本发明是一种使用机器学习处理提取计算机可读取的存储装置中所保存的文本数据中所出现的二元关系的二元关系提取处理装置,其特征在于,其具备以下单元:
1)教师数据存储单元,其中保存的教师数据包含的是由问题与解答的组所构成的事例、问题是文本数据中所出现的二元关系、解答是要提取的二元关系;
2)解答-特性对提取单元,用于从上述教师数据存储单元中提取上述事例,针对上述每个事例,提取预定信息作为特性(identity),生成由上述解答和上述所提取的特性的集合构成的组;
3)机器学习单元,其基于预定的机器学习算法,针对上述解答和特性的集合构成的组执行机器学习处理,学习在何种特性集合的情况下会形成上述解答,并将表示在上述何种特性集合的情况下会形成上述解答的信息作为学习结果信息保存到学习结果存储单元中;
4)候选提取单元,其从上述存储装置中保存的文本数据中提取上述二元关系的元素,并提取由上述元素所构成的对,将上述提取的对作为二元关系的候选;
5)特性提取单元,其通过执行与上述解答-特性对提取单元所执行的提取处理相同的提取处理,针对上述二元关系的候选,提取上述预定信息作为特性;
6)解答推断单元,其基于上述学习结果存储单元中保存的上述学习结果信息,推断在上述二元关系的候选特性的集合的情况下容易形成上述解答的程度;
7)二元关系提取单元,其在上述推断结果针对上述二元关系的候选容易形成上述解答的程度好于预定程度的情况下,选择上述二元关系的候选作为应提取的二元关系。
本发明预先在教师数据存储单元中存储教师数据,这些教师数据中包含赋予了用于表示文本数据中出现的二元关系中应提取的二元关系的解答信息的事例。此外,借助于解答-特性对提取单元,从教师数据存储单元中取出事例,针对各个事例,提取预定信息作为特性,生成所提取的特性集合和解答的组。进而,借助于机器学习单元,基于预定的机器学习算法,针对解答和特性集合的组执行机器学习处理,学习在何种特性集合的情况下会形成何种解答,并将表示“在何种特性集合的情况下会形成何种解答”的信息作为学习结果信息保存到学习结果存储单元中。
然后,借助于候选提取单元,从存储装置中保存的文本数据中提取二元关系的元素,并提取由上述元素所构成的对,将上述提取的对作为二元关系的候选,则借助于特性提取单元,通过执行与解答-特性对提取单元所执行的提取处理相同的提取处理,针对二元关系的候选,提取预定信息作为特性。此外,借助于解答推断单元,基于学习结果存储单元中保存的学习结果信息,推断在二元关系的候选特性的集合的情况下容易形成解答的程度,并借助于二元关系提取单元,根据推断结果,在针对二元关系的候选容易形成解答的程度好于预定程度的情况下,提取该二元关系的候选。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于独立行政法人情报通信研究机构,未经独立行政法人情报通信研究机构许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200680022356.9/2.html,转载请声明来源钻瓜专利网。