[发明专利]定义提取有效
申请号: | 200680027965.3 | 申请日: | 2006-08-01 |
公开(公告)号: | CN101233484A | 公开(公告)日: | 2008-07-30 |
发明(设计)人: | K·R·普维尔;K·W·亨姆菲耶斯;S·阿扎姆 | 申请(专利权)人: | 微软公司 |
主分类号: | G06F7/00 | 分类号: | G06F7/00 |
代理公司: | 上海专利商标事务所有限公司 | 代理人: | 张政权 |
地址: | 美国华*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 定义 提取 | ||
背景
以下讨论仅是为一般的背景信息提供的,并不旨在用于帮助确定所要求保护的主题的范围。
从文本源中找到定义正成为因特网搜索引擎、桌面搜索应用程序以及相关搜索应用程序中越来越重要的特征。相关搜索应用程序的一个示例是这样一类问答(QA)应用程序,它被设计成给予用户对特定问题的特定回答,而非如通常在更传统的搜索引擎中提供的那样列出一般在某种程度上相关的到网页或文档的链接。使用这各种搜索应用程序,通常期望找出对单词、术语或短语的定义,或找出关于一个人的信息(此处也称为定义)。
随着在web上、电子邮件中和/或个人桌面数据中找到的文本信息量的增长,在用这些术语更新词典和百科全书之前,每天都在创造新的术语。例如,单词“博客”曾经不在词典中,然而甚至在那时也可找到与该单词有关的内部文本信息源。例如,与此处单词“博客”有关地,内部文本信息源可包括如示例1中所示的描述性句子:
示例1
“A blog is a system for publishing images,text and video on the web,a diaryenrichable with any sort of multimedia content that one wishes to share with othersurfers.(博客是一种用于在web上发布图像、文本和视频的系统,它是可用人们希望与其它网虫共享的任何种类的多媒体内容来丰富的日记。)”
此外,某些定义只能在源文本中找到。换言之,由于只能在文本数据中找到的信息的特性,某些单词将不会列在词典上。另一方面,在文本数据中找出准确的定义可能是具有挑战性的,并且可能需要昂贵的处理。标识准确地表示一定义的文本数据提出了众多挑战。例如,以下示例2-4中提供的句子示出在如“is a(是一)”等定义性模式上的简单串匹配不足以标识出一句子是否包含定义。
示例2
“Microsoft Corp. is a great software company in Redmond.(微软公司是雷蒙德市的一家大型软件公司)”
示例3
“Microsoft Corp. is a software company in Redmond.(微软公司是雷蒙德市的一家软件公司)”
示例4
“Today is a valid workday.(今天是一个合法工作日)”
尽管所有这三个句子都包括单词或模式“is a”,但是仅示例3表示定义。示例2的句子表示一种观点而非定义。示例4的句子也包括类似定义的模式“is a”,但不是定义。
在大量新的每天创造的数据以及对用户信息需求作出快速且准确的响应的环境下,重要的是提供在搜索引擎、快速爬寻(crawl)和处理文档的组件(例如,QA系统)等中使用的高效(快速)索引流水线以找出正确的定义或回答。
概述
提供本概述以用简化的形式介绍以下详细描述中进一步描述的一些概念。本概述并不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。
一种定义提取系统和方法能够标识例如网页文档、桌面文档等文档中的定义的能力。该方法和系统可被优化成通过使用浅语言分析来更快速、更准确或两者结合地标识定义。例如,在某些实施例中,标识包含提示短语的文本单元(诸如句子)。这些文本单元然后经历围绕该提示短语的局部语法分析以确定它们是否可能包含定义。
附图简述
图1是其中可实施所公开的概念的通用计算环境的框图。
图2是定义提取系统的框图。
图3是示出示例提示短语的表。
图4-1是示出示例排除规则的表。
图4-2是示出特征评分方面的表。
图5是示出一方法实施例的流程图。
图6是示出一方法实施例的流程图。
详细描述
所公开的实施例包括分析文本数据并标识包含定义的句子、段落或其它文本单元的方法、装置和系统。文本数据可以例如采用网页或可通过诸如因特网等全球计算机网络可用的其它文档的形式。文本数据也可以是局域网(LAN)或桌面上的文档集合。此外,从中提取定义的文本数据可以是单个文档或甚至是文档的一部分。
该方法、装置和系统可以在包括个人计算机、服务器计算机等的各种计算环境中实施。在更详细描述各实施例之前,对其中可实现各实施例的示例计算环境的讨论可能是有用的。图1示出了一个这样的计算环境。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软公司,未经微软公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200680027965.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种治疗褥疮、烫伤、烧伤的纯中药散剂
- 下一篇:连续式真空玻璃封边炉