[发明专利]基于新词发现算法的知识库构建系统有效

专利信息
申请号: 202010136541.2 申请日: 2020-03-02
公开(公告)号: CN111291197B 公开(公告)日: 2021-05-11
发明(设计)人: 崔岩松;陈科良;黄建明;任维政;杨泰岳 申请(专利权)人: 北京邮电大学
主分类号: G06F16/36 分类号: G06F16/36;G06F40/279;G06F40/30
代理公司: 北京慕达星云知识产权代理事务所(特殊普通合伙) 11465 代理人: 曹鹏飞
地址: 100876 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 新词 发现 算法 知识库 构建 系统
【说明书】:

发明公开的一种基于新词发现算法的知识库构建系统,包括图书筛选子系统,用于对电子图书使用ISBN号进行图书资源的唯一标识,并进行标签转换为满足知识元提取条件的图书资源;分词子系统,用于将图书筛选子系统中输出的图书资源进行基于标签权重的新词发现算法的词语切分与提取,得到分词结果;筛词子系统,用于对分词结果进行筛词任务管理,并对所筛词语进行词语管理并保存。完成了从图书到知识元数据、再到知识体系的构建过程,保证所构建的知识体系的权威性。同时,减少了新词提取过程中的人为干预,具有更高的处理效率和更少的人为错误概率,利用叠加了XML标签权重的新词发现技术提取出的新词将会更加精准和权威。

技术领域

本发明属于信息处理技术领域,涉及一种基于新词发现算法的知识库构建系统。

背景技术

在知识经济和互联网技术高度融合和快速发展的时代,知识已经成为影响经济发展的关键性因素,当然也带来了一些新的问题:如何在繁杂的知识资源中快速高效地捕获和获得正好适用于当前问题的知识点,同时获取相关联的信息资源,形成体系化的知识架构,为用户提供全方位的解决方案。完全、准确地揭示一个数字出版领域的知识体系是非常复杂且浩大的工程,研究过程周期长、建设难度大、投入多,这与知识体系构建与知识服务应用需求的急迫度产生了明显的矛盾。

目前,针对新词发现的研究已经产出了一定数量有价值的研究成果,从算法实现原理来说,主要分为有词库的新词发现算法以及无词库的新词发现算法。有词库的新词发现算法原理相对简单一些,其通过互联网大数据分析,提取不断产生的热门新生词汇;通过语义分析算法处理掉同义词汇,最终输出新词表,用于有词库的新词提取算法中;然后就可以基于词库对文本进行分词,在词库中没有匹配提取出来的剩余片段就是新词。但是,这种算法本身存在一个问题:分词的准确性本身依赖于词库的完整性,如果词库中根本没有新词,则分词结果将得不到保障。同时,如果采用此种算法,针对数字出版领域的新词表中的词汇需是专业词汇,直接引入大数据分析提取后,互联网数据会造成词库污染,将会产生大量的无用词汇,影响最终提取的知识元数据,进而导致知识体系构建失败。

因此,提供一种高效准确的基于新词发现算法的知识库构建系统是本领域技术人员亟待解决的技术问题。

发明内容

本发明针对上述研究现状和存在的问题,提供了一种基于新词发现算法的知识库构建系统,完成了从图书到知识元数据、再到知识体系的构建过程。每个子系统在自身的功能范围内独立运行,利用规范化的RESTFUL接口进行数据交换,保证所构建的知识体系的权威性。同时,基于无词库的新词发现算法进行调优,对每个词语在书内的重要性为其分配权重值,从而保证所提取的新词的实际价值。针对数字出版行业的新词发现算法基于无词库的版本将会更有价值。

为实现上述目的其具体方案如下:

一种基于新词发现算法的知识库构建系统,包括图书筛选子系统、分词子系统、筛词子系统;其中

所述图书筛选子系统,用于对电子图书使用ISBN号进行图书资源的唯一标识,并进行标签转换为满足知识元提取条件的图书资源;

所述分词子系统,用于将图书筛选子系统中输出的图书资源进行基于标签权重的新词发现算法的词语切分与提取,得到分词结果;

所述筛词子系统,用于对所述分词结果进行筛词任务管理,并对所筛词语进行词语管理并保存。

优选的,所述图书筛选子系统还包括图书预览模块、图书转换模块、图书加载模块、图书管理模块;其中,

所述图书预览模块,用于对初筛之后的图书资源进行PDF和XML的预览校对,判断输入图书资源是否满足知识体系构建的需要;

所述图书转换模块,用于将对输入图书资源进行格式转换,将PDF转换成以分页加载形式的SWF文件,将XML利用XSL文件转换成HTML文件;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010136541.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top