[发明专利]因果关系识别装置及存储介质有效
申请号: | 201780061597.2 | 申请日: | 2017-09-28 |
公开(公告)号: | CN109791569B | 公开(公告)日: | 2023-07-04 |
发明(设计)人: | 卡纳萨·库恩卡莱;桥本力;鸟泽健太郎;朱利安·克洛埃特泽;吴钟勋;田仲正弘 | 申请(专利权)人: | 国立研究开发法人情报通信研究机构 |
主分类号: | G06F40/20 | 分类号: | G06F40/20;G06F16/242;G06F40/289;G06N5/01;G06N5/02;G06N3/04;G06N3/045;G06F16/33;G06N5/022;G06F40/30 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 王亚爱 |
地址: | 日本国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 因果关系 识别 装置 存储 介质 | ||
1.一种因果关系识别装置,自动识别由在文本中找到的第一短语以及第二短语表示的因果关系,其中,
所述第一短语是所述因果关系的原因部的候补,所述第二短语是所述因果关系的结果部的候补,
所述第一短语以及所述第二短语均包括名词词组和谓语的组合,
所述因果关系识别装置包括:
第一矢量生成单元,接受由所述第一短语以及第二短语构成的因果关系候补,并生成分别表示构成该因果关系候补的单词序列的第一单词矢量的组;
第二矢量生成单元,生成分别表示构成上下文的单词序列的第二单词矢量,在所述上下文中,所述第一短语以及所述第二短语出现在所述文本中;
背景知识矢量生成单元,用于生成表示背景知识的单词矢量,所述背景知识用于判断所述第一短语中包括的名词词组和第二短语中包括的名词词组之间有无因果关系;以及
分类单元,预先学习完毕,使得接受所述第一单词矢量以及所述第二单词矢量和由所述背景知识矢量生成单元生成的单词矢量,并输出指标,所述指标为:成为了这些单词矢量的源的所述因果关系候补是因果关系,
所述背景知识矢量生成单元至少包括以下任一个单元的任意的组合:
第三矢量生成单元,从大量的文档中收集模式,并生成表示该模式的单词序列的第三单词矢量,所述模式包括所述第一短语中包括的名词词组、所述第二短语中包括的名词词组、以及连接这些名词词组的谓语;
第四矢量生成单元,根据所述因果关系候补生成为什么型提问,从为什么型问答装置接受对于该为什么型提问的回答的集合,并根据该回答的集合中包括的回答当中的、均包括所述第一短语中包括的名词词组以及所述第二短语中包括的名词词组的回答,生成第四单词矢量,所述第四单词矢量表示至少包括所述第一短语中包括的名词词组以及所述第二短语中包括的名词词组的单词序列;以及
第五矢量生成单元,从大量的文档中存在的、连续的给定个数的句子的组,即所述第一短语中包括的名词词组以及所述第二短语中包括的名词词组与关联于因果关系的线索词具有搭配关系的段落,生成第五单词矢量,所述第五单词矢量表示连结所述第一短语以及所述第二短语中包括的名词词组、在该句子的组内表示两者的依赖关系的单词、以及该句子的组中包括的所述线索词所获得的单词序列。
2.根据权利要求1所述的因果关系识别装置,其中,
所述分类单元包括多列神经网络,所述多列神经网络具有多列,并预先学习完毕,使得分别在各个列的子网络中接受所述第一单词矢量以及所述第二单词矢量和由所述背景知识矢量生成单元输出的单词矢量,并输出指标,所述指标为:成为了这些单词矢量的源的所述因果关系候补是因果关系。
3.根据权利要求1或2所述的因果关系识别装置,其中,
所述第三矢量生成单元包括:
二进制模式收集单元,从所述大量的文档中收集二进制模式,所述二进制模式由包括所述第一短语中包括的名词词组、所述第二短语中包括的名词词组、以及连接这些名词词组的谓语的模式构成;
频率计算单元,计算由所述二进制模式收集单元收集的二进制模式的出现频率;以及
生成表示单词序列的单词矢量,并输出为所述第三单词矢量,所述单词序列构成由所述二进制模式收集单元收集的二进制模式当中的、由所述频率计算单元计算的频率居高的给定个数的二进制模式的单元。
4.根据权利要求1或2所述的因果关系识别装置,其中,
所述第四矢量生成单元包括:
回答获取单元,通过将表示为什么型提问的疑问词添加到所述第二短语中,生成为什么型提问并提供给所述为什么型问答装置,从而从该为什么型问答装置获取回答的集合;
提取单元,从所述回答获取单元获取的所述回答的集合中提取均包括所述第一短语中包括的名词词组以及所述第二短语中包括的名词词组的给定个数的回答;
依赖关系解析单元,解析由所述提取单元提取的回答的各个依赖关系并生成依赖构造;以及
针对由所述提取单元提取的各个回答,生成由所述依赖关系解析单元生成的所述依赖构造上的、表示包括所述第一短语以及所述第二短语中包括的名词词组和存在于处于给定的关系的位置的单词在内的单词序列的单词矢量,并输出为所述第四单词矢量的单元。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国立研究开发法人情报通信研究机构,未经国立研究开发法人情报通信研究机构许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780061597.2/1.html,转载请声明来源钻瓜专利网。