[发明专利]一种专有本体自动生成系统及方法在审

申请号：	201710383135.4	申请日：	2017-05-26
公开（公告）号：	CN108959240A	公开（公告）日：	2018-12-07
发明（设计）人：	雷晓军;周京	申请（专利权）人：	上海醇聚信息科技有限公司
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	上海信好专利代理事务所(普通合伙) 31249	代理人：	朱成之
地址：	200000 上海市杨浦***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	短语句子输入端连接自然语言理解模块自动生成系统文本数据库短语分析建议模块句法语义存储文本数据文本数据输出端放入分割分析
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种专有本体自动生成系统及方法，该系统文本数据库，用于存储文本数据；自然语言理解模块，其输入端连接于文本数据库，用于对文本数据分割成若干个句子并分析所述的句子得到句子的句法语义结构；短语分析模块，其输入端连接于自然语言理解模块输出端，用于根据所述的句子的句法语义结构得出对应的短语及短语关系；识别建议模块、待建立专有本体库，识别建议模块输入端连接短语分析模块，用于识别所述的短语和短语关系作为待建立专有本体的类别和属性并放入到待建立专有本体库中。

技术领域

本发明涉及人工智能中的语义技术和语义搜索的领域，特别涉及一种专有本体自动生成系统及方法。

背景技术

计算机和互联网的结合产生了大量的信息，这使得我们很快有被淹没的感觉。事实也是这样，我们在对付非常规海量信息的同时，也不断地在制造新的信息。这个信息量是以几何级数方式增长的。人们把希望放在了计算机对海量信息的有效处理上，期待不但从信息淹没中被解放出来，也能够更好地利用这些海量信息。

计算机的信息处理一开始是局限在结构简单的数据上的，尽管数据量可能很大，但结构比较单一。随着计算机硬件能力的迅速增强，计算机被用来对付复杂的问题，数据的结构的复杂性大大增加。经过了互联网对数据的不同积累，不同数据源的数据开始汇集在一起，使得数据处理变得更加复杂。在计算机科学和人工智能学界，本体和专有本体的出现是为了应对这样的复杂性的。本体和专有本体是第三代互联网--语义网（Semantic Web）的基础，同时也是语义搜索的基石。第三代互联网和语义搜索是大数据处理的基础。

传统的专有本体的编撰是手工的工作。专有本体编撰工作者通过本体编辑器在一个专有领域中建立类（Class）、实体（Entity）、属性（Property），同时还需要借鉴已有的其它专有本体，吸收这些专有本体的某些成分。这个过程非常耗费时间，而且容易前后不一致。

发明内容

本发明的目的是提供一种专有本体自动生成系统及方法，通过自然语言理解技术对一个专有领域的文献进行处理，获得这个专有领域中的大量短语，从这些短语和短语之间的关系中，学习自动建立专有本体，解决了时间耗费和前后不一致的问题。

为了实现以上目的，本发明是通过以下技术方案实现的：

一种专有本体自动生成系统，其特点是，包含：

文本数据库，用于存储文本数据；

自然语言理解模块，其输入端连接于文本数据库，用于对文本数据分割成若干个句子并分析所述的句子得到句子的句法语义结构；

短语分析模块，其输入端连接于自然语言理解模块输出端，用于根据所述的句子的句法语义结构得出对应的短语及短语关系；

识别建议模块、待建立专有本体库，所述的识别建议模块输入端连接短语分析模块，用于识别所述的短语和短语关系作为待建立专有本体的类别和属性并放入到待建立专有本体库中。

该专有本体自动生成系统还包含一其他专有本体库，其与识别建议模块相连，用于预设存储已经被建立过的短语。

所述的自然语言理解模块包含：

句子分割单元，用于对文本进行句子的切割，成为若干个句子；