[发明专利]上下文解析装置及上下文解析方法有效
申请号: | 201280071298.4 | 申请日: | 2012-06-25 |
公开(公告)号: | CN104169909A | 公开(公告)日: | 2014-11-26 |
发明(设计)人: | 浜田伸一郎 | 申请(专利权)人: | 株式会社东芝;东芝解决方案株式会社 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 永新专利商标代理有限公司 72002 | 代理人: | 徐殿军 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 上下文 解析 装置 方法 | ||
1.一种上下文解析装置,具备:
预测序列生成部,以具有共有项的谓语、确定该谓语的语义的语义确定信息、和表示上述共有项的格的种类的格种类信息的组合为要素,从解析对象的文书生成预测序列,该预测序列是通过预测而求出了排列有多个上述要素的序列中的一部分要素的序列;
概率预测部,基于从任意的文书群事先获得的与上述预测序列一致的上述序列的出现概率,预测上述预测序列的发生概率;以及
解析处理部,使用预测到的上述预测序列的发生概率,进行对于解析对象的文书的上下文解析。
2.如权利要求1所述的上下文解析装置,
上述解析处理部通过机器学习,进行对于解析对象的文书的照应解析,该机器学习使用预测出的上述预测序列的发生概率作为上述预测序列的特征量。
3.如权利要求1所述的上下文解析装置,还具备:
序列获得部,从任意的文书群获得上述序列;以及
概率计算部,计算所获得的上述序列的出现概率。
4.如权利要求3所述的上下文解析装置,
上述序列获得部从任意的文书群检测具有共有项的多个谓语,对于检测出的多个谓语,分别作为上述要素而求出该谓语、上述语义确定信息和上述格种类信息的组合,将按照多个谓语中的每个谓语求出的多个上述要素以上述文书群中的谓语的出现顺序排列而获得上述序列。
5.如权利要求3所述的上下文解析装置,
还具备计算所获得的上述序列的出现频度的频度计算部;
上述概率计算部基于上述序列的出现频度计算上述序列的出现概率。
6.如权利要求5所述的上下文解析装置,
上述序列获得部对1个谓语推定多个语义,获得将包含仅上述组合中的上述语义确定信息不同的多个要素候选的要素排列有多个的上述序列;
上述频度计算部将上述序列的出现频度除以上述要素候选的组合的数量,分别计算每个上述要素候选的组合的出现频度。
7.如权利要求5所述的上下文解析装置,
上述概率计算部基于N阶马尔可夫过程,计算上述序列的出现概率。
8.如权利要求5所述的上下文解析装置,
上述概率计算部基于与上述序列内的任意的要素的对相关的点互信息量的总和,计算上述序列的出现概率。
9.如权利要求5所述的上下文解析装置,
上述频度计算部按每个部分序列计算出现频度,该部分序列是上述序列内的N个要素的部分集合;
上述概率计算部按每个上述部分序列计算出现概率。
10.如权利要求9所述的上下文解析装置,
上述频度计算部容许在上述序列中不邻接的要素的组合而求出上述部分序列。
11.如权利要求4所述的上下文解析装置,
上述文书群被赋予用来识别处于共参照关系的名词彼此的共参照信息;
上述序列获得部基于上述共参照信息确定上述共有项。
12.一种在上下文解析装置中执行的上下文解析方法,
上述上下文解析装置的预测序列生成部,以具有共有项的谓语、确定该谓语的语义的语义确定信息、和表示上述共有项的格的种类的格种类信息的组合为要素,从解析对象的文书生成预测序列,该预测序列是通过预测而求出了排列有多个上述要素的序列中的一部分要素的序列;
上述上下文解析装置的概率预测部,基于从任意的文书群事先获得的与上述预测序列一致的上述序列的出现概率,预测上述预测序列的发生概率;
上述上下文解析装置的解析处理部使用预测到的上述预测序列的发生概率,进行对于解析对象的文书的上下文解析。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社东芝;东芝解决方案株式会社,未经株式会社东芝;东芝解决方案株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201280071298.4/1.html,转载请声明来源钻瓜专利网。