[发明专利]从语言输入数据自动生成N‑元和概念关系在审
申请号: | 201580060933.2 | 申请日: | 2015-10-14 |
公开(公告)号: | CN107111608A | 公开(公告)日: | 2017-08-29 |
发明(设计)人: | F·诺兹;C·奇斯格;M·扎拉芬;M·B·维拉达-莫伊恩;R·吉尼特 | 申请(专利权)人: | 甲骨文国际公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/28;G06F17/30 |
代理公司: | 中国国际贸易促进委员会专利商标事务所11038 | 代理人: | 李晓芳 |
地址: | 美国加*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语言 输入 数据 自动 生成 概念 关系 | ||
对相关申请的交叉引用
本申请要求于2014年11月10日提交的标题为“Automatic Batch Generation of Concept Relations from N-Grams from Linguistic Input Data”的美国临时申请No.62/077,868的权益。本申请还要求于2014年11月10日提交的标题为“Lemma Mapping to Univerasal Ontologies”的美国临时申请No.62/077,887的权益。出于所有目的,这些申请中的每个申请通过引用并入本文。
以下三个申请彼此相关并且于2015年7月6日同一天提交:Fabrice Nauze等人于2015年7月7日提交的标题为“Automatic Generation of N-Grams and Concept Relations From Linguistic Input Data”的美国序列No.14/793,677(代理人案号88325-934160);Margaret Salome等人于2015年7月7日提交的标题为“Automatic Ontology Generation for Natural-Language Processing Applications”的美国序列No.14/793,701(代理人案号88325-913826);以及Fabrice Nauze等人于2015年7月7日提交的标题为“Lemma Mapping to Universal Ontologies in Computer Natural-Language Processing”的美国序列No.14/793,658(代理人案号88325-934161)。这些申请中的每个申请通过引用并入本文。
背景技术
管理大型企业可以涉及存储、聚合和分析大量数据。许多组织使用企业软件系统管理几乎每种形式的业务数据。例如,企业软件系统可以提供面向业务的工具,诸如在线购物和在线支付处理、交互式产品目录、自动计费系统、安全性、企业内容管理、IT服务管理、客户关系管理、企业资源规划、商业智能、项目管理、协作、人力资源管理、制造、企业应用集成以及企业表单自动化。
发明内容
在一些实施例中,从web资源自动生成词元词典(lemma dictionary)的方法可以包括从web资源内的基于文本的文档中提取多个标记,从该多个标记生成多个N-元(N-gram),接收识别有效N-元的一个或多个过滤器定义;使用该一个或多个过滤器定义来过滤该多个N-元,以生成词元词典;以及生成包括该词元词典的本体(ontology)。
在一些实施例中,非暂态计算机可读介质可以包括指令,该指令当由一个或多个处理器执行时使得该一个或多个处理器执行操作,这些操作包括:从web资源内的基于文本的文档中提取多个标记,从该多个标记生成多个N-元,接收识别有效N-元的一个或多个过滤器定义;使用该一个或多个过滤器定义来过滤该多个N-元,以生成词元词典;以及生成包括该词元词典的本体。
在一些实施例中,系统可以包括一个或多个处理器以及包括指令的一个或多个存储器设备,该指令当由该一个或多个处理器执行时使得该一个或多个处理器执行操作,这些操作包括:从web资源内的基于文本的文档中提取多个标记,从该多个标记生成多个N-元,接收识别有效N-元的一个或多个过滤器定义;使用该一个或多个过滤器定义来过滤该多个N-元,以生成词元词典;以及生成包括该词元词典的本体。
附图说明
可以通过参考说明书的剩余部分和附图来实现对本发明的本质和优点的进一步理解,其中贯穿若干附图使用相似的附图标记来指代相似的组件。在一些实例中,子标签与附图标记相关联,以表示多个相似组件中的一个组件。当在没有指定现有子标签的情况下引用附图标记时,旨在指代所有这样的多个相似组件。
图1示出了根据一些实施例的基于web的虚拟助手的简化框图。
图2示出了根据一些实施例的用于生成自然语言本体的系统的框图。
图3示出了根据一些实施例的用于使用标准化过程来生成不同语言的本体的方法的流程图。
图4示出了根据一些实施例的用于与语言分析工具交互的用户界面。
图5示出了根据一些实施例的用于从web域自动提取标记的用户界面。
图6示出了用于显示由语言分析工具返回的标记数据结构中的信息的用户界面。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于甲骨文国际公司,未经甲骨文国际公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201580060933.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:活体传感器
- 下一篇:带图形用户界面的空气质量检测仪
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置