[发明专利]基于新词发现算法的知识库构建系统有效

专利信息
申请号: 202010136541.2 申请日: 2020-03-02
公开(公告)号: CN111291197B 公开(公告)日: 2021-05-11
发明(设计)人: 崔岩松;陈科良;黄建明;任维政;杨泰岳 申请(专利权)人: 北京邮电大学
主分类号: G06F16/36 分类号: G06F16/36;G06F40/279;G06F40/30
代理公司: 北京慕达星云知识产权代理事务所(特殊普通合伙) 11465 代理人: 曹鹏飞
地址: 100876 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 新词 发现 算法 知识库 构建 系统
【权利要求书】:

1.一种基于新词发现算法的知识库构建系统,其特征在于,包括图书筛选子系统、分词子系统、筛词子系统;其中

所述图书筛选子系统,用于对电子图书使用ISBN号进行图书资源的唯一标识,并进行标签转换为满足知识元提取条件的图书资源;

所述分词子系统,用于将图书筛选子系统中输出的图书资源进行基于标签权重的新词发现算法的词语切分与提取,得到分词结果;所述分词子系统包括语义分析模块,所述语义分析模块的分词操作采用无词库的基于标签权重的新词发现算法,具体包括:

以互信息、左右熵以及新词IDF作为过滤新词的三个条件,先计算出分词输出的所有词语的互信息、左右熵和词频信息,然后分别计算出每个词语的互信息、左右熵以及词频在所有词语的互信息、左右熵以及词频之和中所占的比重;

为文本抽取得到的文本进行新词属性判定,判定算法如下:

式中各符号的含义如下:

Scorei:第i个单词的得分,

wm:互信息权重,

we:左右熵权重,

所有单词词频的和,

wti:第i个单词的标签权重,

eni:第i个单词的左右熵,

单词出现的总次数,

mii:第i个单词的互信息,

wf:词频权重,

所有单词互信息的和,

freqi:第i个单词的词频,

单词出现的所有标签的总权重,

cj为出现的第j个标签的次数,

wj为该标签的权重;

新词本身的属性得分和新词的标签权重,这两项因素的乘积作为最终的新词得分;

利用最终的新词得分对待提取新词进行排序;

所述筛词子系统,用于对所述分词结果进行筛词任务管理,并对所筛词语进行词语管理并保存。

2.根据权利要求1所述的一种基于新词发现算法的知识库构建系统,其特征在于,所述图书筛选子系统还包括图书预览模块、图书转换模块、图书加载模块、图书管理模块;其中,

所述图书预览模块,用于对初筛之后的图书资源进行PDF和XML的预览校对,判断输入图书资源是否满足知识体系构建的需要;

所述图书转换模块,用于将对输入图书资源进行格式转换,将PDF转换成以分页加载形式的SWF文件,将XML利用XSL文件转换成HTML文件;

所述图书加载模块,用于在本地存在电子图书文件时不从服务器提取文件,从本地加载电子图书文件;

所述图书管理模块,用于对整个图书筛选子系统中所有内容、操作以及工作流程进行管理,包括对电子图书上传、图书资源以及转换任务进行管理、词库管理。

3.根据权利要求1所述的一种基于新词发现算法的知识库构建系统,其特征在于,所述分词子系统包括语义分析模块、词语筛选模块、词间关系计算模块;其中,

所述语义分析模块,用于依据语义分析算法对图书资源的文本内容进行处理,处理过程包括文本抽取、分词、词性标注、标签关联、内容关联五个步骤;

所述词语筛选模块,用于依据词表、词频、词性、XML标签以及已有数字出版行业相关专业词库进行词语筛选,依据行业规则配置的XML标签权重调整词语权重,过滤权重低于给定阈值的词语;

所述词间关系计算模块,用于根据所述词语筛选模块输出的词语集数据计算出各词语之间的关系,结合一本书之内的词间距离、不同书之间的词间距离,利用图论方法建立词语与书、书与书以及词语与词语之间的关联关系,并进行存储。

4.根据权利要求1所述的一种基于新词发现算法的知识库构建系统,其特征在于,还包括,系统管理子系统,包括用户管理模块、角色权限管理模块以及XML标签管理模块;其中,

所述XML标签管理模块,用于原始XML标签文件上传与管理、分词过滤权重管理、词间关系过滤权重管理。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010136541.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top