[发明专利]一种基于Web信息的本体概念属性学习方法有效

申请号：	201310229229.8	申请日：	2013-06-08
公开（公告）号：	CN103324700B	公开（公告）日：	2017-02-01
发明（设计）人：	王俊丽;王志成;赵卫东;梁梅连	申请（专利权）人：	同济大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	上海天协和诚知识产权代理事务所31216	代理人：	叶凤
地址：	200092 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及本体学习领域，特别涉及到基于Web信息的本体概念属性学习方法。本发明的技术方案是以Web作为语料库，构建语言模式并作为Google搜索引擎的查询集合，进行网页片段和对应的源网址URL提取，以构建候选概念属性词库；根据候选词的URL构建文本集作为LDA的输入，采用Gibbs抽样的方法来获取LDA模型的训练参数，根据LDA模型的运行结果修剪和合并属性候选库，确立最终的概念属性词集。本发明能够更加准确有效地获取本体中的概念属性集合，从而使得自动或半自动构建本体成为可能。
搜索关键词：	一种基于 web 信息本体概念属性学习方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于Web信息的本体概念属性学习方法，其特征在于，包括如下步骤：(1)词汇‑句法模式集的构建：根据已有的基本语言模式集，利用词汇‑语义模式构建并合并表示包含关系的动词形式扩充模式集，最终建立表达概念属性的模式集，作为候选概念属性抽取算法输入的一部分；(2)候选概念属性库的构建：以Google搜素引擎作为Web数据来源，首先构建语言模式集，作为Google的查询输入，提取对应的网页查询片段集合和源网址URL集合；然后根据查询得到的网页片段，根据词频统计获得候选属性词，经过筛选就得到候选概念属性词集；(3)文本集的构建：根据候选词库中的属性词，保留其对应的源网址URL并进行网页提取；对提取的网页文档集合，采用Apache的开源工具OpenNLP作文本预处理，用OpenNLP作词性标注；(4)LDA修剪合并概念属性集：根据输入的文本集，结合Gibbs抽样参数估计的结果，运行LDA模型；根据LDA模型多次迭代的提取结果修剪和合并候选概念属性词库，得到最终的概念属性集合。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于同济大学，未经同济大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201310229229.8/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于Web信息的本体概念属性学习方法有效

专利文献下载