[发明专利]数据处理装置及故事模型构建方法有效

专利信息
申请号: 201380073967.6 申请日: 2013-02-28
公开(公告)号: CN105264518B 公开(公告)日: 2017-12-01
发明(设计)人: 浜田伸一郎 申请(专利权)人: 株式会社东芝;东芝解决方案株式会社
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 永新专利商标代理有限公司72002 代理人: 高迪
地址: 日本*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 数据处理 装置 故事 模型 构建 方法
【说明书】:

技术领域

本发明的实施方式涉及数据处理装置及故事模型构建方法。

背景技术

照应解析(Anaphora Resolution)、共参照解析(Coreference Resolution)、对话处理(Dialog Processing)等文脉解析(Contextual Analysis),在自然语言处理中在正确地理解文章方面是重要的任务。在文脉解析中,已知使用香克脚本或菲尔摩尔帧那样的程序性知识(Procedural Knowledge)是有效。程序性知识指的是,与“一序列程序之后接续的程序是什么”这样的问题有关的知识。将该程序性知识通过计算机再现的模型是故事模型。

以往,提出了以下的技术:从任意的文章群获得相互关联的谓语和格的对(以下称为“事件空位(event slot)”)的序列,从该事件空位序列生成事例数据,通过机器学习的训练来构建故事模型。

事件空位序列将事件空位作为要素,该事件空位是共用项的谓语和共用项的格种类的组合,将该事件空位按照出现顺序排列。作为事件空位序列的要素的事件空位的种类有多种多样,所以为了进行充分的学习而构件高精度的故事模型,需要与其相应的庞大的学习数据。但是,获得可靠性高的学习数据非常花费成本。因此,如果不能收集充分的学习数据,就会产生学习数据不足,其结果,构建的故事模型的精度可能会变低。

发明内容

发明所要解决的课题

本发明所要解决的课题是,提供一种能够构件高精度的故事模型的数据处理装置及故事模型构建方法。

解决课题所采用的技术手段

实施方式的数据处理装置具备:提取部、事例生成部、模型构建部。提取部从被进行谓语项构造解析及共参照解析的文章中,将具有共用项的谓语和表示所述共用项的格的种类的格种类信息的组合作为要素,与所述共用项一起提取将多个所述要素按照所述文章中的所述谓语的出现顺序排列的要素序列。事例生成部,在将构成所述要素序列的所述要素中的1个作为关注要素时,对于各个所述关注要素,生成用特征矢量表现的事例数据,该特征矢量包含与将所述关注要素作为末尾的要素的所述要素序列内的部分序列有关的1个以上的特征量和与对应于所述部分序列的所述共用项的序列有关的1个以上的特征量的至少某一个特征量。模型构建部使用所述事例数据进行基于识别模型的机器学习,从而构建用于推测后续于在先文脉的所述要素的故事模型。

根据上述构造的数据处理装置,能够构建高精度的故事模型。

附图说明

图1是使用以“犯罪者”为共用项的事件空位序列的概率模型的示意图。

图2是说明非专利文献3所记载的方法的示意图。

图3是表示第1实施方式的数据处理装置的构成例的框图。

图4是表示带有训练用标记的文章的具体例的图。

图5是表示训练用事件空位序列数据的具体例的图。

图6是说明由事件空位序列提取器实施的处理的流程图。

图7是表示训练用事例数据的具体例的图。

图8是说明由机器学习用事例生成器实施的处理的流程图。

图9是说明事件空位履历特征生成器的处理的流程图。

图10是说明共用项履历特征生成器的处理的流程图。

图11是表示由共用项表现生成器生成的共用项表现群的一例的图。

图12是说明共用项表现生成器的处理的流程图。

图13是表示后续事件空位推测模型的一例的图。

图14是说明由后续事件空位推测训练器实施的处理的流程图。

图15是说明预测处理中的机器学习用事例生成器的处理的流程图。

图16是表示后续事件空位推测结果的一例的图。

图17是说明由后续事件空位预测器执行的处理的流程图。

图18是表示第2实施方式的数据处理装置的构成例的框图。

图19是表示训练用事例数据的具体例的图。

图20是说明组合特征生成器的处理的流程图。

图21是说明数据处理装置的硬件构成的图。

具体实施方式

以下,参照附图说明实施方式的数据处理装置及故事模型构建方法。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社东芝;东芝解决方案株式会社,未经株式会社东芝;东芝解决方案株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201380073967.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top