[发明专利]文本含意辨认装置、文本含意辨认方法和计算机可读记录介质有效
申请号: | 201280003691.X | 申请日: | 2012-10-04 |
公开(公告)号: | CN103221947A | 公开(公告)日: | 2013-07-24 |
发明(设计)人: | 土田正明;石川开;大西贵士 | 申请(专利权)人: | 日本电气株式会社 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 杨静 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 含意 辨认 装置 方法 计算机 可读 记录 介质 | ||
技术领域
本发明涉及用于确定特定文本是否暗指另一文本的文本含意辨认装置和文本含意辨认方法,以及计算机可读记录介质,其上记录有用于实现上述装置和方法的程序。
背景技术
近年来,已经注意到文本含意辨认以便实现用于处理自然语言的大量复杂应用,例如检索具有意义的自然语句。文本含意辨认是指一种任务,当给定文本T和文本H时,确定是否“能够从文本T推导出文本H”。
例如,当给定“文本T:N公司具有500亿日元的利润”和“文本H:N公司盈利”时,可以从文本T推导出文本H,并确定文本T暗指文本H。原因在于认为“500亿日元的利润”足以意味着“盈利”。
例如,非专利文献1公开了一种传统文本含意辨认系统的示例。非专利文献1中公开的文本含意辨认系统首先解析文本T和文本H中的每一个,并针对每个文本创建树结构,在所述树结构中动词是根部(顶部节点),动词的论元(argument)(主语、宾语等)中包括的字词是子节点或孙节点。
接下来,非专利文献1中公开的含意确定系统对文本T执行字词替换和语法解释,并尝试在文本T的子树中创建与文本H的树结构相匹配的树结构。然后,如果能够在文本T的子树中创建上述树结构,则含意确定系统确定文本T暗指文本H。
此外,利用非专利文献1中公开的含意确定系统,除了是否存在理想匹配的匹配确定以外,还可以在对树结构执行匹配确定时执行近似匹配确定。具体地,在创建上述树结构之后,含意确定系统根据创建的树结构来创建被称作VAS(动词论元结构)的数据。
VAS是一种所谓的谓语论元结构,包括用作树结构根部的动词和针对每个论元类型分离创建的字词集。例如,在非专利文献1中,从语句“Casey Sheehan在伊拉克被杀害”生成VAS“<杀害,(宾语:Casey,Sheehan),(其他:伊拉克)>”。非专利文献1还公开了一种方法,其中如果根部是动词“是”且论元类型之间无差异,则根据子节点和孙节点的整体性来创建字词集。
然后,非专利文献1中公开的含意确定系统针对从文本T和文本H创建的两个VAS,确定相同论元的字词集之间字词覆盖的百分比。随后,如果上述字词覆盖的百分比大于或等于预定覆盖,则含意确定系统确定两个VAS的论元内容匹配,如果论元匹配程度大于或等于固定比率,则还确定两个VAS的原始树结构也匹配。因此,在生成VAS的情况下,不仅可以实现动词论元的字符串之间的理想匹配,还可以确定近似匹配。
引用列表
非专利文献
非专利文献1:Asher Stern et al.,″Rule Chaining and Approximate Match in textual inference″,Text Analysis Conference2010,(Online Proceedings),http://www.nist.gov/tac/publications/2010/participant.papers/BIU.proceedings.pdf
发明内容
本发明要解决的技术问题
如上所述,非专利文献1中公开的上述含意确定系统能够确定两个感兴趣自然语句中的一个是否暗指另一个,因此例如能够令人信服地检索自然语句。
然而,非专利文献1中公开的上述含意确定系统存在的问题在于:如果谓语的论元结构不同则不能执行含意确定。原因在于该含意确定系统在谓语的论元结构相同的假设下执行文本之间的核对。
例如,假设存在“文本T:A公司从个人计算机商业领域撤出”和“文本H:来自A公司的个人计算机将消失”。非专利文献1中公开的上述含意确定系统从文本T中提取“撤出(主语:A公司,宾语:个人计算机,商业领域)”作为VAS,并从文本H中提取“消失(主语:A公司,从,个人计算机)”。
在提取上述VAS的情况下,“撤出”和“消失”是不同的动词。结果,在非专利文献1中公开的上述含意确定系统中,即使文本T暗指文本H,仍确定文本T不暗指文本H。
此外,在含意确定系统中,即使在上述情况下认为所有动词都是相同的,“消失”的主语不同于“撤出”的主语和宾语,因此,在这种情况下仍确定文本T没有含意文本H。
本发明的目的
本发明的目的示例在于解决上述技术问题并提供一种文本含意辨认装置、文本含意辨认方法和计算机可读记录介质,即使在谓语的论元结构不同的情况下,也能够对进行确定的多个文本进行含意确定。
解决技术问题的技术手段
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于日本电气株式会社,未经日本电气株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201280003691.X/2.html,转载请声明来源钻瓜专利网。