[发明专利]基于百科知识的移动应用知识图谱复合型补全方法及装置有效
申请号: | 201910806480.3 | 申请日: | 2019-08-29 |
公开(公告)号: | CN110851612B | 公开(公告)日: | 2023-08-18 |
发明(设计)人: | 钮艳;赵淳璐 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/9535;G06F16/951;G06F16/957 |
代理公司: | 工业和信息化部电子专利中心 11010 | 代理人: | 秦莹 |
地址: | 100029*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 百科 知识 移动 应用 图谱 复合型 方法 装置 | ||
1.一种基于百科知识的移动应用知识图谱复合型补全方法,其特征在于,包括:
对于给定的百科站点,读取该百科站点对应的配置文件,并利用配置文件中的信息,筛选出该百科站点中与移动应用相关联的百科页面;
利用网络爬虫抓取筛选出的所述百科页面并存储;
针对不同的移动应用属性值采取不同的属性识别算法,从所述百科页面中进行结构化知识的抽取,并以预定格式进行存储;
根据抽取的所述结构化知识,更新AllegroGraph中移动应用的属性信息,同时返回一个更新文件提示原始的数据库进行移动应用图谱数据的同步更新补全;
其中,针对不同的移动应用属性值采取不同的属性识别算法,从所述百科页面中进行结构化知识的抽取,并以预定格式进行存储,包括:
针对inforbox中结构化的属性特征,采用基于字符串映射的移动应用知识图谱属性补全方法;
针对移动应用功能点的属性特征,采用基于模版触发词的移动应用知识图谱属性补全方法;
针对移动应用属性实体的属性特征,采用基于BiLSTM-CRF的移动应用知识图谱属性补全方法。
2.如权利要求1所述的方法,其特征在于,读取该站点对应的配置文件之前,所述方法进一步包括:
给定图数据库中的移动应用名称,预先设置爬虫脚本中的所述配置文件,其中,所述配置文件用于驱动读取百科中移动应用的知识挖掘过程,所述配置文件具体包括以下至少之一:百科中移动应用所属的类别集合、移动应用名称词典、移动应用的属性词典。
3.如权利要求1所述的方法,其特征在于,针对inforbox中结构化的属性特征,采用基于字符串映射的移动应用知识图谱属性补全方法具体包括:
对每一个百科知识平台,分别建立百科知识平台中inforbox各属性字符串与移动应用知识图谱后台图数据库中的属性名称的属性字符串映射表;
对每个移动应用对应的百科知识页面,首先抽取inforbox中的属性字符串,并与百科平台的属性字符串映射表进行比对,如果该属性字符串存在于映射表中,则从百科知识页面中继续抽取属性值,用于补全至移动应用知识图谱中。
4.如权利要求1所述的方法,其特征在于,针对移动应用功能点的属性特征,采用基于模版触发词的移动应用知识图谱属性补全方法具体包括:
针对特定的属性建立有针对性的模板触发词表,根据所述模板触发词表中的模板触发词进行提取,用于补全移动应用知识图谱。
5.如权利要求1所述的方法,其特征在于,针对移动应用属性实体的属性特征,采用基于BiLSTM-CRF的移动应用知识图谱属性补全方法具体包括:
通过CRF模型对属性中每个实词的上下文信息建模,捕捉语义特征;
通过BiLSTM根据所述语义特征,积累属性中所有的有用信息,用于补全移动应用知识图谱。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心,未经国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910806480.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种自动装配机
- 下一篇:温度控制表面和支承结构