[发明专利]一种专有本体自动生成系统及方法在审

专利信息
申请号: 201710383135.4 申请日: 2017-05-26
公开(公告)号: CN108959240A 公开(公告)日: 2018-12-07
发明(设计)人: 雷晓军;周京 申请(专利权)人: 上海醇聚信息科技有限公司
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 上海信好专利代理事务所(普通合伙) 31249 代理人: 朱成之
地址: 200000 上海市杨浦*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 短语 句子 输入端连接 自然语言理解模块 自动生成系统 文本数据库 短语分析 建议模块 句法语义 存储文本数据 文本数据 输出端 放入 分割 分析
【说明书】:

发明公开了一种专有本体自动生成系统及方法,该系统文本数据库,用于存储文本数据;自然语言理解模块,其输入端连接于文本数据库,用于对文本数据分割成若干个句子并分析所述的句子得到句子的句法语义结构;短语分析模块,其输入端连接于自然语言理解模块输出端,用于根据所述的句子的句法语义结构得出对应的短语及短语关系;识别建议模块、待建立专有本体库,识别建议模块输入端连接短语分析模块,用于识别所述的短语和短语关系作为待建立专有本体的类别和属性并放入到待建立专有本体库中。

技术领域

本发明涉及人工智能中的语义技术和语义搜索的领域,特别涉及一种专有本体自动生成系统及方法。

背景技术

计算机和互联网的结合产生了大量的信息,这使得我们很快有被淹没的感觉。事实也是这样,我们在对付非常规海量信息的同时,也不断地在制造新的信息。这个信息量是以几何级数方式增长的。人们把希望放在了计算机对海量信息的有效处理上,期待不但从信息淹没中被解放出来,也能够更好地利用这些海量信息。

计算机的信息处理一开始是局限在结构简单的数据上的,尽管数据量可能很大,但结构比较单一。随着计算机硬件能力的迅速增强,计算机被用来对付复杂的问题,数据的结构的复杂性大大增加。经过了互联网对数据的不同积累,不同数据源的数据开始汇集在一起,使得数据处理变得更加复杂。在计算机科学和人工智能学界,本体和专有本体的出现是为了应对这样的复杂性的。本体和专有本体是第三代互联网--语义网(Semantic Web)的基础,同时也是语义搜索的基石。第三代互联网和语义搜索是大数据处理的基础。

传统的专有本体的编撰是手工的工作。专有本体编撰工作者通过本体编辑器在一个专有领域中建立类(Class)、实体(Entity)、属性(Property),同时还需要借鉴已有的其它专有本体,吸收这些专有本体的某些成分。这个过程非常耗费时间,而且容易前后不一致。

发明内容

本发明的目的是提供一种专有本体自动生成系统及方法,通过自然语言理解技术对一个专有领域的文献进行处理,获得这个专有领域中的大量短语,从这些短语和短语之间的关系中,学习自动建立专有本体,解决了时间耗费和前后不一致的问题。

为了实现以上目的,本发明是通过以下技术方案实现的:

一种专有本体自动生成系统,其特点是,包含:

文本数据库,用于存储文本数据;

自然语言理解模块,其输入端连接于文本数据库,用于对文本数据分割成若干个句子并分析所述的句子得到句子的句法语义结构;

短语分析模块,其输入端连接于自然语言理解模块输出端,用于根据所述的句子的句法语义结构得出对应的短语及短语关系;

识别建议模块、待建立专有本体库,所述的识别建议模块输入端连接短语分析模块,用于识别所述的短语和短语关系作为待建立专有本体的类别和属性并放入到待建立专有本体库中。

该专有本体自动生成系统还包含一其他专有本体库,其与识别建议模块相连,用于预设存储已经被建立过的短语。

所述的自然语言理解模块包含:

句子分割单元,用于对文本进行句子的切割,成为若干个句子;

句子分析单元,用于对输入的若干个句子进行句法和语义进行分析,得到句子对应的句法语义结构。

所述的短语分析模块包含:

短语语义分析过滤单元,用于提取句法语义结构中的所有短语,并对之进行语义分析,过滤与其他专有本体库有对应的短语,留下没有与其他专有本体库有对应的短语;

短语之间关系分析单元,用于分析过滤留下短语具有的关系得到短语的关系。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海醇聚信息科技有限公司,未经上海醇聚信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710383135.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top