[发明专利]基于上下文的首字母缩略词和缩写词的歧义消除有效
申请号: | 201180056876.2 | 申请日: | 2011-09-23 |
公开(公告)号: | CN103229137A | 公开(公告)日: | 2013-07-31 |
发明(设计)人: | B·K·博古拉夫;J·舒-卡罗尔;D·A·弗鲁茨;A·T·莱瓦斯;J·M·普拉格尔 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F7/00 | 分类号: | G06F7/00 |
代理公司: | 北京市中咨律师事务所 11247 | 代理人: | 张亚非;于静 |
地址: | 美国*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 上下文 首字母 缩略 缩写 歧义 消除 | ||
本申请要求享有2010年9月29日提交的美国临时专利申请号61/387,562的优先权,其全部内容通过引用结合于此。
技术领域
本公开一般涉及计算机、计算机应用、人工智能和自然语言处理,且更具体而言涉及首字母缩略词和/或缩写词的歧义消除。
背景技术
首字母缩略词和缩写词是单词或常见短语的缩写形式。缩写词是用于代表整个单词或短语的缩写或缩略形式(例如,Dr表示“Doctor”或“Drive”,等)。首字母缩略词是由其他单词的起始字母构成的缩写词且有时候发音为单词(例如IBM)。
对于首字母缩略词和缩写词两者都存在的理解目标含义的问题,在于它们具有多于一个并且有时候具有很多个可能的扩展。这带来了在实际想要的扩展方面的歧义。上下文是人类读者理解扩展的目标含义的背景。例如,首字母CIA具有很多可能的扩展,其中两个众所周知的扩展是Central Intelligence Agency(中央情报局)和Culinary Institute of America(美国烹饪学院)。
在下面的句子中:
“The former CIA officer accused of revving an electric drill near the head of imprisoned terror suspect has returned to U.S.intelligence as as contractor”(被指责为靠近关押的恐怖嫌疑人头部加速旋转电钻的前CIA官员已作为承包人返回美国情报部门),人类读者将使用用于消除歧义的周围单词的上下文把词语CIA的目标扩展识别为“Central Intelligence Agency”。这里,词语“imprisoned”(关押的)、“terror”(恐怖)、“suspect”(嫌疑人)、“intelligence”(情报部门)和“officer”(官员)与该歧义消除相关。
在下面的句子中:
“Two Certified Master Chefs from CIA have designed and tested more than100kitchen essentials that meet highest processional standards in gourmet cuisine”(来自CIA的两个注册顶级厨师设计和测试了满足美食烹调最高标准的超过100个厨房必备工具),人类读者将使用用于消除歧义的周围单词的上下文把词语CIA的目标扩展识别为“Culinary Institute of America”(美国烹饪学院)。这里,术语“Master Chef”(顶级厨师)、“kitchen”(厨房)、“gourmet”(美食)和“cuisine”(烹调)与该歧义消除相关。
歧义的另一维度是,文本中的标记(token)是要扩展的缩写词还是合法的单词的问题,该单词正好具有与缩写词一样的字母。例如,“WAS”可以是表示“be”的过去式的单词,或者“Websphere Application Services”的缩写。显然,将“WAS”当作缩写词并对它进行合适的扩展再次地依赖于上下文。
对人类来说,歧义消除的任务经常是简单、直接和自然的。相反,自动化计算机系统在自然语言处理(NLP)的过程中提取首字母缩略词和缩写词的目标含义有很多的难度。当在开放和广泛的领域中而不是在论文的狭窄领域中执行NLP任务时该问题尤其严重,因为备选解释的数量很大。
发明内容
提供了一种用于基于上下文的首字母缩略词和/或缩写词的歧义消除的方法和系统。在一方面,该方法包括确定目标缩写词以及出现在该目标缩写词的上下文中的一个或多个关键词。目标缩写词表示一个或多个单词的缩写形式。该方法还可以包括生成上下文搜索查询,该查询包含目标缩写词以及在缩写词上下文中出现的一个或多个关键词。该方法还可以包括通过调用上下文搜索查询来搜索用于目标缩写词的一个或多个扩展的伪文档索引。伪文档索引包含一个或多个伪文档的索引、关联的一个或多个缩写词、以及关联的上下文关键词。该方法还可以包括基于对伪文档索引的搜索来返回与目标缩写词关联的一个或多个伪文档。该方法还可以包括基于返回的一个或多个目标伪文档来提供与目标缩写词关联的一个或多个扩展。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201180056876.2/2.html,转载请声明来源钻瓜专利网。