[发明专利]基于上下文的首字母缩略词和缩写词的歧义消除有效
申请号: | 201180056876.2 | 申请日: | 2011-09-23 |
公开(公告)号: | CN103229137A | 公开(公告)日: | 2013-07-31 |
发明(设计)人: | B·K·博古拉夫;J·舒-卡罗尔;D·A·弗鲁茨;A·T·莱瓦斯;J·M·普拉格尔 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F7/00 | 分类号: | G06F7/00 |
代理公司: | 北京市中咨律师事务所 11247 | 代理人: | 张亚非;于静 |
地址: | 美国*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 上下文 首字母 缩略 缩写 歧义 消除 | ||
1.一种用于基于上下文的缩写词歧义消除的方法,包括:
确定收到的段落中的目标缩写词以及出现在该目标缩写词的上下文中的一个或多个关键词,该目标缩写词表示一个或多个单词的缩写形式;
生成包含目标缩写词以及所述一个或多个关键词的上下文搜索查询;
通过调用该上下文搜索查询来搜索用于目标缩写词的一个或多个扩展的伪文档索引,该伪文档索引包含一个或多个伪文档的索引、关联的一个或多个缩写词、以及关联的上下文关键词;
基于对伪文档索引的搜索,返回与目标缩写词关联的一个或多个伪文档;以及
基于返回的一个或多个目标伪文档来提供与目标缩写词关联的一个或多个扩展。
2.如权利要求1所述的方法,其中,所述一个或多个伪文档被构造为包括名称和内容,该名称包含缩写词的扩展,且该内容包含缩写词和关联的上下文关键词。
3.如权利要求1所述的方法,还包括生成与目标缩写词关联的一个或多个返回的目标伪文档的评级列表或评分列表或两者的组合。
4.如权利要求1所述的方法,其中,确定收到的段落中的目标缩写词以及出现在该目标缩写词的上下文中的一个或多个关键词包括:生成捕获到该段落的词法和句法属性的一个或多个特征,以及基于捕获到的词法和句法属性来识别收到的段落中的所述目标缩写词以及出现在该目标缩写词的上下文中的所述一个或多个关键词。
5.如权利要求1所述的方法,其中,所述目标缩写词包括首字母缩略词。
6.如权利要求1所述的方法,其中,所述一个或多个伪文档是基于缩写词和关联扩展的词典来构造的。
7.一种用于基于上下文的缩写词歧义消除的方法,包括:
通过识别具有关联潜在扩展的一组缩写词来生成缩写词扩展词典;
为缩写词扩展词典中识别的每个扩展生成伪文档,该伪文档包含缩写、关联的扩展、以及与所述缩写词一起出现的一个或多个单词;以及
生成对所述缩写词和所述关联扩展进行索引的伪文档索引。
8.如权利要求7所述的方法,还包括:通过生成捕获到所收到的段落的词法和句法属性的一个或多个特征来生成机器学习分类模型,以及构造机器学习模型,其用于识别收到的段落中的一个或多个目标缩写词以及出现在该目标缩写词的上下文中的一个或多个目标关键词。
9.一种用于基于上下文的缩写词歧义消除的系统,包括:
处理器;
分析段落模块,其可操作以在处理器上执行,且还可操作以确定收到的段落中的目标缩写词以及出现在该目标缩写词的上下文中的一个或多个关键词,该目标缩写词表示一个或多个单词的缩写形式;
上下文搜索查询生成组件,其可操作以生成包含目标缩写词以及所述一个或多个关键词的上下文搜索查询;
搜索伪文档索引模块,其可操作以通过调用该上下文搜索查询来搜索用于目标缩写词的一个或多个扩展的伪文档索引,该伪文档索引包含一个或多个伪文档的索引、关联的一个或多个缩写词、以及关联的上下文关键词,该搜索伪文档索引模块还可操作以基于对伪文档索引的搜索来返回与目标缩写词关联的一个或多个伪文档,其中,基于返回的一个或多个目标伪文档来提供与目标缩写词关联的一个或多个扩展。
10.如权利要求9所述的系统,其中,所述一个或多个伪文档被构造为包括名称和内容,该名称包含缩写词的扩展,且该内容包含缩写词和关联的上下文关键词。
11.如权利要求9所述的系统,其中,从与目标缩写词关联的一个或多个返回的目标伪文档来生成评级列表或评分列表或两者的组合。
12.如权利要求9所述的系统,还包括机器学习分类模型生成模块,其可操作以确定收到的段落中的目标缩写词以及出现在该目标缩写词的上下文中的一个或多个关键词,该机器学习分类模型生成模块生成捕获到该段落的词法和句法属性的一个或多个特征,以及基于捕获到的词法和句法属性来识别收到的段落中的所述目标缩写词以及出现在该目标缩写词的上下文中的所述一个或多个关键词。
13.如权利要求9所述的系统,其中,所述目标缩写词包括首字母缩略词。
14.如权利要求9所述的系统,还包括存储缩写词和关联扩展的词典的储存库,其中,所述一个或多个伪文档是基于缩写词和关联扩展的词典来构造的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201180056876.2/1.html,转载请声明来源钻瓜专利网。