[发明专利]基于知识的解析无效
申请号: | 201210435297.5 | 申请日: | 2012-11-02 |
公开(公告)号: | CN103412861A | 公开(公告)日: | 2013-11-27 |
发明(设计)人: | Y·奥林;E·齐克利克;G·诺维克;N·哈比;E·胡迪斯;M·拉维夫;J·I·玛尔卡 | 申请(专利权)人: | 微软公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 陈斌 |
地址: | 美国华*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 知识 解析 | ||
技术领域
本发明涉及数据组织,且更特定地涉及基于与该数据相关的知识解析非结构化数据。
背景技术
在数据质量与组织的域中,关于未结构化数据,存在广泛的困难。以使得数据对于特定过程有用的方式来组织并结构化未结构化数据已经成为特别困难的任务。未结构化的数据经常被封装在作为结构化和未结构化数据的混合的对象中。部分的困难在于未结构化数据可被封装入的不同形式,包括书、期刊、文档、元数据、健康记录、媒体、文件、和诸如电子邮件消息的本体、web页面、或文字处理文档之类的未结构化的文本、等。未结构化的数据源,依其本质,具有较大的不一致,且建立处理它们的统一方法被证明为是挑战性的。作为结果,目前市场上存在数种工具,可成功地将未结构化的数据转换为智能且可操作的数据。
存在日渐增长的意见认为,半结构化和未结构化的数据源包括期望用于商业、学术、智能、和操作努力(operational endeavors)的有用的信息。一些商业企业已经估计,大部分有用的商业信息源自半结构化或未结构化的形式。此外,数据增长被期待以快速继续,且未结构化数据的增长被期待远超结构化数据的增长。
当今技术的上述缺点仅旨在提供常规系统的某些问题的概览,并且不旨在是穷尽性的。常规系统的其他问题以及此处所描述的各非限制性实施例的对应的益处可以在审阅以下描述后变得更显而易见。
发明内容
此处提供了简化的发明内容以帮助能够对以下更详细的描述和附图中的示例性、非限制性实施例的各方面有基本或大体的理解。然而,本发明内容并不旨在是详尽的或穷尽的。相反,本发明的唯一目的在于,以简化的形式提出与一些示例性、非限制性实施例相关的一些概念,作为以下各实施例的更详细的描述的序言。
在一个或多个实施例中,提供了用于基于与未结构化数据相关域的知识来解析未结构化数据的系统与方法。据此,提供了一方法,其包括检验项、确定与该项相关的一组域、基于包括在该项中的一组未匹配的词语标识一组词元(word-gram)、将该组词元中的词元与一组域中至少一个未匹配域的一组已知域值比较、确定该词元处于该至少一个未匹配域的至少一个已知域值的预定阈值内、并响应于该词元处于至少一个已知域值的预定阈值内,将该词元与该至少一个未匹配域相关联。
在另一个实施例中,提供了一系统,包括域标识组件,被配置为确定与项相关的一组域、检查组件,被配置为检验项以及基于包括在该项中的一组未匹配的词语标识一组词元(word-gram)、相关组件,被配置为将该组词元中的词元和与该项相关的一组域中至少一个未匹配域的一组已知域值比较、并确定该词元处于一组已知域值中的至少一个已知域值的预定阈值内,以及管理组件,被配置为响应于该词元处于至少一个已知域值的预定阈值内,将该词元与该至少一个未匹配域相关联。
在又一个实施例中,提供了计算机可读存储介质,其包括计算机可读指令,响应于由计算系统的执行,该计算机可读指令使得包括至少一个处理器的计算设备来执行操作,包括检验数据组、标识该数据组中的一组项、标识该一组项中的一个项的一组词语、标识该组词语中的一组未匹配的词语,其中未匹配的词语没有相关联于域、确定与该项相关的一组域、确定包括在这一组域中的一组未匹配的域,其中未匹配的域没有相关联于一组词语中的词语,响应于存在一组未匹配的词语和一组未匹配的域,基于该组未匹配的词语产生一组词元,将该组词元中的词元与该组未匹配域中至少一个未匹配域的一组域值比较、将该词元与一组已知域值中的至少一个已知域值相匹配、并将该词元与该至少一个未匹配域相关联。
以下更详细地描述其他实施例和各非限制性性示例、场景和实现。
附图说明
参考附图进一步描述各非限制性实施例,在附图中:
图1示出可基于知识解析数据的示例性非限制性系统的框图;
图2示出可基于知识解析数据的示例性非限制性系统的框图;
图3示出可基于知识解析数据的示例性非限制性系统的框图;
图4示出采用基于知识和定界符的解析的示例性非限制性系统的框图;
图5示出示例性的基于知识的解析的图形化表示;
图6示出示例性的基于知识的解析的图形化表示;
图7示出示例性的基于知识和定界符的解析的图形化表示;
图8示出示例性的基于知识和定界符的解析的图形化表示;
图9示出提供与基于知识的解析相关的附加特征或方面的示例性非限制性系统的框图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软公司,未经微软公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210435297.5/2.html,转载请声明来源钻瓜专利网。