[发明专利]学习装置、判断装置、学习方法和判断方法有效

专利信息
申请号: 201110414927.6 申请日: 2011-12-13
公开(公告)号: CN102609406A 公开(公告)日: 2012-07-25
发明(设计)人: 浜田伸一郎 申请(专利权)人: 株式会社东芝;东芝解决方案株式会社
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 永新专利商标代理有限公司 72002 代理人: 杨谦;胡建新
地址: 日本*** 国省代码: 日本;JP
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 学习 装置 判断 学习方法 方法
【说明书】:

本申请基于并要求2011年1月18日在先提出的日本专利申请2011-007663的优先权,在此引用其全部内容。

技术领域

本发明的实施方式涉及学习装置、判断装置、学习方法和判断方法。

背景技术

所述共参照是一种在文章内构成该文章的要素(称为构成要素)组表示相同实体的语言现象。在该组中,特殊地将位于最后方的构成要素叫做照应词,将其他构成要素叫做先行词。将进行找出这种组的处理(称为共参照分析)的程序(模块)叫做共参照分析器。作为共参照现象,按照构成要素的类别分有名词短语共参照、谓语共参照和语句共参照、或横跨构成要素类别的共参照等。以下为了简单地进行说明,作为共参照对象而找出的构成要素,设仅对名词(短语)进行处理。将以名词短语为基础的共参照分析器扩展成还能处理其他类别构成要素的器件是很容易的。

共参照分析器一般进行学习处理和判断处理。在学习处理中,共参照分析器以示出由人工等预先给予了表示是共参照组的标记后的文章的数据(称为训练数据)为参考,进行获得判断基准的处理,所述判断基准用于给予表示共参照组的标记群。另一方面,在判断处理中,共参照分析器对未带表示共参照组的标记的通常文章(文本)和在该文本内用户想知道是否处于共参照的关系(共参照关系)的多个名词短语,适用已在上述学习处理中获得的判断基准,进行判断有无共参照关系的处理。

训练数据本质上具有在文章中示出名词短语群来作为成为共参照组的构成要素的标记、和示出它们是否指同一实体的标记。根据它们就能够确定哪个名词短语与哪个名词短语具有对应关系(链接)。可以说这种训练数据是用标记直接地表现了共参照现象的数据。

以下示出训练数据的表现方法的一例。用<>括起来的范围是作为共参照组来指定的构成要素的名词短语。将<>叫做共参照要素标记。此外,将[]叫做链接标记,将用[]括起来的数字在此叫做链接ID。在用共参照要素标记示出的名词短语群中,具有相同链接ID的组可以解释为处于共参照关系。

“<鲍伯>[1]出现了。<他>[1]是学生。”

--(9900)

“感受到捕捉<海味类>[2]等<事物>[2]的感性。”       --(9901)

“与<摩纳哥的外交官>[3]会面了。<他>[3]好像很忙。” --(9902)

共参照分析器使用这样的训练数据进行学习处理,获得能够对训练数据文本尽量给予相同标记的判断基准。此外,在判断处理中,共参照分析器对未被给予标记的任意文本适用学习处理中获得的判断基准来给予标记。作为标记的实例,例如有使用XML(Extensible Markup Language:可扩展标记语言)的方法。

可是,在由这样的训练数据示出的共参照要素标记,指定了作为成为共参照组的构成要素的名词短语是什么范围,即、范围的成为前方的位置(称为前方边界)和成为后方的位置(称为后方边界)。例如,以词素为单位或者以字符为单位指定这样的位置。例如,在上述(9900)~(9902)的训练数据的例子中,关于成为先行词的名词短语,分别作为包含1个词素、2个词素、4个词素的范围而指定了前方边界和后方边界。即,利用共参照要素标记示出判断词素串的作用上的块(称为组块(chunk))的结果,也就是应该将从哪个词素到哪个词素的串(称为词素串)作为成为共参照组的名词短语。一般将这样地进行词素串的组块判断的任务叫做组块任务。若将对成为共参照组的名词短语间的对应关系进行判断的任务叫做狭义的共参照任务,则在进行要适合于这种训练数据的学习处理时,本质上同时解决了共参照任务和组块任务(称为同时学习)。

发明内容

但是,现有的共参照分析器有以下两个问题。一个是,为了进行同时学习而狭义的共参照任务的性能低下,而且由于组块任务自身也很难,因此不能发挥出充分的性能,从而有可能两方面都差。此外,另一个是,在应用中要求的多是由狭义共参照任务输出的有关链接的信息,即使没有由组块任务输出的信息也行。以下,关于各个问题详细地说明。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社东芝;东芝解决方案株式会社,未经株式会社东芝;东芝解决方案株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110414927.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top