[发明专利]一种结合知识图谱和文本信息的相关公司挖掘方法在审

专利信息
申请号: 201810898419.1 申请日: 2018-08-08
公开(公告)号: CN109614495A 公开(公告)日: 2019-04-12
发明(设计)人: 龙世增;蔡瑞初;毕辉;李楠 申请(专利权)人: 广州初星科技有限公司
主分类号: G06F16/36 分类号: G06F16/36
代理公司: 广州粤高专利商标代理有限公司 44102 代理人: 林丽明
地址: 511400 广东省广州市番*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明是一种结合知识图谱和文本信息的相关公司挖掘方法。结合知识图谱和文本信息的相关公司挖掘系统包括:深度学习关系抽取模块、知识库关系提取模块、PRA训练模块、PRA预测模块、模型库管理模块、用户反馈模块。用户可以从样本库中提取数据训练PRA模型,并存入模型库,还可以通过提取end‑to‑end模型和存储训练的PRA模型,以此预测公司的相关公司及公司之间的关系,作为公司知识图谱的一种发现和补充。本发明将知识图谱中的公司实体关系当作PRA中的限定集,保证了限定集的准确度同时又最大限度降低了限定集的规模,减少了无关路径的数量。
搜索关键词: 图谱 文本信息 知识库 关系提取模块 模型库管理 公司实体 关系抽取 提取数据 挖掘系统 训练模块 用户反馈 预测模块 准确度 挖掘 模型库 样本库 存储 补充 预测 保证 发现 学习
【主权项】:
1.一种结合知识图谱和文本信息的相关公司挖掘方法,其特征在于结合知识图谱和文本信息的相关公司挖掘包括有:深度学习关系抽取模块(1):通过样本接口从样本库中提取公司的相关文本输入预训练的end‑to‑end神经网络模型,输出文本中所有实体及相关关系的三元组;知识库关系提取模块(2):提取公司间特殊实体的相关关系,如公司间类似的经营范围,用户群体;将其当作知识图谱特殊的边参与到PRA的计算中;这样相当于是对知识图谱表达的实体关系所预测的公司间的关系这一过程做了加强,增强了预测的可靠性;PRA训练模块(3):在起始点公司A处,遍历限定集中的每一个实体,若存在关系,则标记为1;若不存在,则标记为0;这样从A开始,就产生了一条短路径,然后将其与对应的权重θ相乘,并将起点和终点相同的路径得分相加,得到一个score;依此类推,得到不同终点对应的所有路径的score;最高的score代表的路径则表达了公司间的关系最强;然后用深度学习抽取的公司间的关系作为PRA训练时的标签,对路径进行人工划分,作为对公司间潜在关系的推理,最终得到一个公司关系的分类模型;而公司间的关系不止一种,竞争对手、合作伙伴、上下游、持股、控股都是属于公司间的关系;每种关系需要单独训练一个PRA路径的权重分布,然后将各个关系作为参数放入模型;PRA预测模块(4):输入公司A和公司B通过PRA模型后通过计算score会得到一条路径;将这条路径与训练时学习到规则进行比对,看这条路径属于哪一种关系类型;由于PRA训练模块已经完成了根据路径进行关系推理的过程,因此在预测时直接输出推理结果;若给出公司A及关系R,则在模型中根据PRA训练模块中的关系参数找到对应的训练好的权重分布,并将所有与A有关的公司输入模型,最终得分最高的公司与A存在关系R的概率最高;模型库管理模块(5):在deep‑learning抽取实体及实体关系三元组时,需要从模型库中导入end‑to‑end的神经网络模型;PRA训练模块中训练好的PRA模型也需要及时存入模型库,在预测的时候调取;模型库中有针对不同领域训练好的深度学习模型集合,根据需要调取不同的end‑to‑end模型;训练的PRA模型也需要及时更新;用户反馈模块(6):对于预测的公司关系通过用户反馈接口接受用户的反馈;如果预测错误,管理员审核后可以进行纠错,再将纠错后的公司关系重新输入model进行训练,这样形成一个model迭代的过程,能进一步提高预测的准确率;结合知识图谱和文本信息的相关公司挖掘方法是:上述六个模块中,深度学习关系抽取模块和知识库关系提取模块由模型库管理模块导入,并作为整个模型的输入,放入PRA模块进行训练及预测,预测的结果进入用户反馈模块进行用户纠错反馈。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州初星科技有限公司,未经广州初星科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201810898419.1/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code