[发明专利]基于百科知识的移动应用知识图谱复合型补全方法及装置有效

专利信息
申请号: 201910806480.3 申请日: 2019-08-29
公开(公告)号: CN110851612B 公开(公告)日: 2023-08-18
发明(设计)人: 钮艳;赵淳璐 申请(专利权)人: 国家计算机网络与信息安全管理中心
主分类号: G06F16/36 分类号: G06F16/36;G06F16/9535;G06F16/951;G06F16/957
代理公司: 工业和信息化部电子专利中心 11010 代理人: 秦莹
地址: 100029*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 百科 知识 移动 应用 图谱 复合型 方法 装置
【权利要求书】:

1.一种基于百科知识的移动应用知识图谱复合型补全方法,其特征在于,包括:

对于给定的百科站点,读取该百科站点对应的配置文件,并利用配置文件中的信息,筛选出该百科站点中与移动应用相关联的百科页面;

利用网络爬虫抓取筛选出的所述百科页面并存储;

针对不同的移动应用属性值采取不同的属性识别算法,从所述百科页面中进行结构化知识的抽取,并以预定格式进行存储;

根据抽取的所述结构化知识,更新AllegroGraph中移动应用的属性信息,同时返回一个更新文件提示原始的数据库进行移动应用图谱数据的同步更新补全;

其中,针对不同的移动应用属性值采取不同的属性识别算法,从所述百科页面中进行结构化知识的抽取,并以预定格式进行存储,包括:

针对inforbox中结构化的属性特征,采用基于字符串映射的移动应用知识图谱属性补全方法;

针对移动应用功能点的属性特征,采用基于模版触发词的移动应用知识图谱属性补全方法;

针对移动应用属性实体的属性特征,采用基于BiLSTM-CRF的移动应用知识图谱属性补全方法。

2.如权利要求1所述的方法,其特征在于,读取该站点对应的配置文件之前,所述方法进一步包括:

给定图数据库中的移动应用名称,预先设置爬虫脚本中的所述配置文件,其中,所述配置文件用于驱动读取百科中移动应用的知识挖掘过程,所述配置文件具体包括以下至少之一:百科中移动应用所属的类别集合、移动应用名称词典、移动应用的属性词典。

3.如权利要求1所述的方法,其特征在于,针对inforbox中结构化的属性特征,采用基于字符串映射的移动应用知识图谱属性补全方法具体包括:

对每一个百科知识平台,分别建立百科知识平台中inforbox各属性字符串与移动应用知识图谱后台图数据库中的属性名称的属性字符串映射表;

对每个移动应用对应的百科知识页面,首先抽取inforbox中的属性字符串,并与百科平台的属性字符串映射表进行比对,如果该属性字符串存在于映射表中,则从百科知识页面中继续抽取属性值,用于补全至移动应用知识图谱中。

4.如权利要求1所述的方法,其特征在于,针对移动应用功能点的属性特征,采用基于模版触发词的移动应用知识图谱属性补全方法具体包括:

针对特定的属性建立有针对性的模板触发词表,根据所述模板触发词表中的模板触发词进行提取,用于补全移动应用知识图谱。

5.如权利要求1所述的方法,其特征在于,针对移动应用属性实体的属性特征,采用基于BiLSTM-CRF的移动应用知识图谱属性补全方法具体包括:

通过CRF模型对属性中每个实词的上下文信息建模,捕捉语义特征;

通过BiLSTM根据所述语义特征,积累属性中所有的有用信息,用于补全移动应用知识图谱。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心,未经国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910806480.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top