[发明专利]用于产生语言分析的词汇资源的方法和系统有效
申请号: | 201410474563.4 | 申请日: | 2014-09-17 |
公开(公告)号: | CN104462057B | 公开(公告)日: | 2017-09-05 |
发明(设计)人: | L·A·巴斯蒂洛;D·K·拜伦;K·克鲁马穆鲁;A·皮科夫斯基 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 中国国际贸易促进委员会专利商标事务所11038 | 代理人: | 边海梅 |
地址: | 美国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 产生 语言 分析 词汇 资源 方法 系统 | ||
技术领域
本申请一般涉及改进的数据处理装置和方法,具体而言,涉及用于使用重命名指令以引导行业特定知识和词汇资源的机制。
背景技术
文档包括许多形式的信息。例如,布置为句子和段落的文本信息以叙事形式传达信息。一些类型的信息是以指称的形式呈现的。例如,文档可包含在文档中重复出现的名字、词语、短语或文本片段。许多文档指定替代的短语或文本以代表名字、词语、短语或文本片段,并且在名字、词语和短语或文本片段第一次出现(全名表达)之后的每次随后的出现使用替代文本(绰号)。
自然语言处理(NLP)是有利于在人与数据处理系统之间交换信息的技术。例如,NLP的一个分支属于将人可用语言或形式的给定内容转换成计算机可用形式。例如,NLP可接收内容为人可读形式的文档,并且产生相应的内容是计算机特定语言或形式的文档。
NLP以许多不同的方式被使用,包括最近用于问题与答案(QA)系统中。也就是说,伴随更多的诸如因特网的计算网络的使用,当前人们淹没在可从各种结构化和非结构化来源得到的大量信息中。但是,当用户在关于各种主题的信息的搜索中尝试拼凑他们可找到的他们认为相关的内容时,信息间隙大量存在。为了帮助这种搜索,最近的研究指向产生问题和答案(QA)系统,该QA系统可取得输入问题、通过使用包括NLP技术的各种技术分析它并且返回指示输入问题的最可能的答案的结果。QA系统提供用于在例如为电子文档的大型内容来源集合上搜索的自动机制,并且关于输入问题分析它们以确定问题的答案和答案多么精确地回答输入问题的置信度量。
一种这种QA系统是可从International Business Machines(IBM)Corporation of Armonk,New York得到的WatsonTM系统。WatsonTM系统是先进自然语言处理、信息检索、知识表达和推理以及机器学习技术向开放域问题回答领域的应用。WatsonTM系统在用于假说产生、大量证据收集、分析和评分的IBM的DeepQATM技术上被构建。DeepQATM取得输入问题,分析它,将问题分解成构成部分,基于分解的问题和答案来源的一次搜索的结果产生一个或更多个假说,基于来自证据来源的证据检索执行假说和证据评分,执行一个或更多个假说的合成,并且,基于训练的模型来执行最终的合并和排序以输出输入问题的答案连同置信度量。
各种美国专利申请公开描述了各种类型的问题和答案系统。美国专利申请公开No.2011/0125734公开了用于基于数据的语料库产生问题和答案对的机制。系统从一组问题开始,并然后分析一组内容以提取这些问题的答案。美国专利申请公开No.2011/0066587公开了用于将分析的信息的报告转换成问题的集合并且从信息集确定问题的集合的答案是得到回答还是被反驳。结果数据被加入到更新的信息模型中。
在应用结构/语法分析以发现较大的短语或句子内的记号之间的附加的关系之前,利用词汇资源以标注/分类/解释文本中的单个记号或记号系列。词汇资源的例子为:
字典:包含语言中的常用词的诸如性别、词类、语义类别/类型的特征。字典在语言处理技术中也被称为“词汇”。
地名词典:适当的名称的特殊类型的字典;地名词典指示名称是什么语义类别的实例,例如,人、城市、地理区域等,并且可能指示性别和其它的特征。
本体:语义类别/类型的清单,一般组织为下位词/上位词树(例如,“Basenji是一种类型的猎犬”)
选择限制:诸如介词和动词的词语在关系元组中变为谓语,并且这些谓语中的论元位置有时可能仅被特定语义类别的实体填充。例如,植物可凋谢,但汽车不能。凋谢的字典条目可扩充,以反映这种与植物的语义关联。
这些资源的一个关键的目的是记录在基本实例水平上规定个体(适当的名称“Petey”或诸如“Dog”的常见名词)的词语之间的关联并且还记录类型/类别符号。许多语言处理任务要求系统进行实例与类别之间的推论。特别是在问题回答系统中,该任务是非常高的优先级,原因是该问题常常表达类别限制,例如,“What Eastern Europen artist wrapped the Reighstag in 1995”,并且必须判断候选答案是否属于该类别(在本例子中,每个候选回答会关于其适合类别“Eastern Europen artist”的可能性被评分)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410474563.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种线路板强风风刀及线路板吹干机
- 下一篇:节能型烘干箱