[发明专利]词法答案类型置信度估计和应用有效
申请号: | 201180056262.4 | 申请日: | 2011-09-21 |
公开(公告)号: | CN103221952A | 公开(公告)日: | 2013-07-24 |
发明(设计)人: | J·J·范;D·A·弗鲁茨;D·C·贡德克;A·A·卡利安普;A·P·拉利;J·W·默多克四世;W·W·扎德罗兹尼 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市中咨律师事务所 11247 | 代理人: | 于静;张亚非 |
地址: | 美国*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 词法 答案 类型 置信 估计 应用 | ||
相关申请的交叉引用
本发明涉及并要求2010年9月24日提交的共同拥有、共同未决的第61/386,029号美国临时专利申请的提交日期的优先权,此临时专利申请的所有公开内容在此全部引入作为参考。
背景技术
有关问答(QA)的当前问题和方法的介绍可以在基于Web的参考http://en.wikipedia.org/wiki/Question_answering中找到。一般而言,QA是一种类型的信息检索。如果给出文档集合(例如万维网或本地集合),则系统应能够检索以自然语言提出的问题的答案。QA被视为比其它类型信息检索(例如文档检索)需要更复杂的自然语言处理(NLP)技术,并且有时被视为超越搜索引擎的后续步骤。
QA研究尝试处理各种问题类型,包括:事实、列表、定义、方式、原因、假设、语义约束和跨语言问题。搜索集合有所不同,从小型本地文档集合到内部组织文档,到编译后的新闻专线报道,再到万维网。
闭域QA在特定领域(例如,医学或汽车维修)下处理问题,并且可以被视为更容易的任务,因为NLP系统可以利用通常以本体形式化的领域特定的知识。开域QA处理有关几乎任何事物的问题,并且只能依赖通用本体和世界知识。另一方面,这些系统通常具有可从其中提取答案的更多数据。
备选地,闭域QA可能指这样一种情况:其中仅接受受限类型的问题,例如询问描述性信息而不是过程信息的问题。
对信息的访问目前由两种范式控制。第一,数据库查询,其回答有关结构化记录集合中的内容的问题。第二,搜索,其响应于针对非结构化数据(例如,文本或html)集合的查询而提供文档链接集合。
这种信息查询范式的一个未解决的主要问题是:没有能够根据包括在文档集合(可以是结构化、非结构化或这两者)中的信息准确回答实际问题的计算机程序。这种实际问题可以是宽泛的(例如“what are the risks of vitamin K deficiency?(维生素K缺乏的危害是什么?)”),或者是狭窄的(例如“when and where was Hillary Clinton’s father born?(希拉里·克林顿的父亲出生在何时何地?)”)。
面临的挑战是理解查询,查找可能包含答案的适当文档,以及提取正确答案以提供给用户。
发明内容
在一个方面,提供了一种进行问答的计算基础架构和方法,所述问答解决有关针对特定查询计算错误LAT的问题。
在一个方面,提供了一种自动估计查询检测到的LAT的置信度,以便为候选答案提供更准确的整体得分的系统、方法和计算机程序产品。获得每个检测到的LAT的置信度“得分”或值,并且所述系统和方法执行以下操作:将所述置信度得分与LAT和候选答案之间的匹配度组合,以便为所述候选答案提供改进的整体得分。
因此,在一个方面,提供了一种用于自动生成问题答案的系统和方法。所述方法包括:确定与输入查询关联的词法答案类型(LAT);计算输入查询LAT的第一得分,其中所述第一得分指示所述查询LAT的质量;从信息源获得所述输入查询的候选答案;确定所述候选答案的答案类型(AT);比较所述查询LAT与候选答案AT;计算表示所比较的查询LAT与所述候选答案AT之间的匹配度的第二得分;以及组合所述第一得分与所述第二得分,以便提供指示所述候选答案的质量的总得分,其中处理设备自动执行所述确定查询LAT、计算所述第一得分和第二得分、获得候选答案、确定AT、比较以及组合步骤中的一个或多个。
在一个方面,计算与所述输入查询关联的所述查询LAT的第一得分包括:提取描述所确定的查询LAT的特性集合;以及向所述特性集合应用模型,以便产生表示所确定的查询LAT的估计准确性的LAT置信度值,所述第一得分包括所述置信度值。
在另一方面,提供了一种用于自动生成问题答案的系统,所述系统包括:存储设备;一个或多个处理器设备,每个处理器设备与所述存储设备通信,并被配置为执行一种方法,所述方法包括:确定与输入查询关联的词法答案类型(LAT);计算查询LAT的第一得分,其中所述第一得分指示所述查询LAT的质量;从信息源获得所述输入查询的候选答案;确定所述候选答案的答案类型(AT);比较查询LAT与所述候选答案AT;计算表示所比较的查询LAT与所述候选答案AT之间的匹配度的第二得分;以及组合所述第一得分与所述第二得分,以便提供指示所述候选答案的质量的总得分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201180056262.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:点火线圈
- 下一篇:预测查询建议高速缓存