[发明专利]一种利用Topic Model的自动学习本体的方法在审

专利信息
申请号: 201810009239.3 申请日: 2018-01-04
公开(公告)号: CN108304488A 公开(公告)日: 2018-07-20
发明(设计)人: 林志杰 申请(专利权)人: 上海电机学院
主分类号: G06F17/30 分类号: G06F17/30;G06F17/27
代理公司: 上海申汇专利代理有限公司 31001 代理人: 翁若莹;柏子雵
地址: 201100 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 语义相似性 自动学习 度量 构建 文本语料库 方法支持 概念识别 关系建立 领域本体 种子本体 语料库 学习
【说明书】:

发明提供了一种利用Topic Model的自动学习本体的方法,该方法支持自动的领域本体构建,发明了一种信息的计算概念之间语义相似性的度量方法,用来计算LDA模型产生的概念之间的语义相似性,这种自动学习本体的方法分为两步:第一步是从文本语料库或者web语料库中进行概念识别;第二步是利用本文定义的语义相似性度量CP进行概念之间的关系建立。该方法不需要有种子本体作为初始学习本体的辅助。实验结果表明本发明提出的利用Topic Model进行自动本体构建的方法是非常有效的。

技术领域

本发明涉及一种本体构建的方法,利用TopicModel作为产生基本概念单位,不用本体种子即可学习出本体达到构建本体的目的。

背景技术

本体构建已经应用到各种领域,如人工智能、信息抽取、机器翻译等领域。但是人工构建本体是非常耗时费力的工作,随着概念和领域信息的不断扩展更新,构建大规模的本体需要越来越多的人力物力和精力,所以人为构建像webdirectories、Wordnet这样的大型本体种子需要耗费更多的努力和精力。因此强烈需要能够自动构建本体来跟上这种领域信息暴涨的现实需求,来缩小认为构建和维护本体的代价。所以最近利用计算机数据分析、数据挖掘的方式自动构建本体是一件很有意义的研究,吸引了很多研究人员对此进行大量深入的研究。

自动构建本体已经变成一个新的研究领域,有很多方法已经提出来用于自动构建本体,目前本体已经有很多即时应用,能够帮助知识工程师结合自动或者半自动机器学习技术来构建和扩展本体,大大减少了人工构建维护本体的代价。大多数现在的本体学习方法集中在扩展、更新已有的本体种子,利用从文献词库中抽取出概念或者词汇单元来更新和宽展本体种子。也有一些自动学习本体的方法,但是多数这种自动学习本体的方法都是基于特殊知识领域的本体构建,如SKOS模型,但是这些方法都具有一定的局限性。

有很多从文本语料库中学习本体的方法,如基于lexico-syntactic的本体构建方法,这些方法主要利用自然语言处理技术和现有的lexicon资源来学习概念之间的is-a关系,即所谓的Hearst-parterns,但是这类方法有个缺点就是Hearst-parterns这种需要频繁出现的词汇模式不会频繁出现,同时他只能处理一些非常模糊的词汇语义关系。P.Cimicano和F.M.Suchanek等常识利用Wikipedia、Wordnet这种web搜索引擎去抽取更多的语言模式。

基于聚类和分类的统计学习方法也应用到本体学习中,这些方法通常利用相似性度量和不相似性度量来进行概念关系的建立。这类方法的局限是基于聚类和分类的本体学习方法很难执行。基于信息抽取技术的本体学习方法学习本体的层次结构,这类方法仅能够抽取出类似人类、地点、动物这种非常概化的概念以及它们的子概念。

Topic Model概率模型是一种在没有先验知识提供的情况下,从科学出版物中识别出概念的已被业界证明了非常有效的模型。Topic Model模型现在已经被广泛应用到文本挖掘领域。利用Topic Model进行本体学习是一种新的研究方法。Elias Zavitsanos等提出一种基于统计方法的自动本体学习方法,该方法是通过不断的重复利用Topic Model模型训练出的概念集合,然后再利用条件独立性判断识别出的概念之间的联系,但是该方法不能进行两个层次结构之间概念的联系。Wang wei等人提出了两个方法都是基于语义Web学习本体结构的方法,该方法利用信息论与Topic Model相结合的方式,表现出很好的召回率和准确率,但是需要限制最近根节点的子概念节点的数量。

发明内容

本发明的目的是提供一种自动学习本体的方法,不当能够准确的确定概念之间的相互关系,而且能够在不提供先验知识的情况下,学习本体的过程中决定本体的深度和学习时间的终点。

为了达到上述目的,本发明的技术方案是提供了一种利用Topic Model的自动学习本体的方法,其特征在于,包括以下步骤:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海电机学院,未经上海电机学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810009239.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top