[发明专利]一种结合知识图谱和文本信息的相关公司挖掘方法在审
申请号: | 201810898419.1 | 申请日: | 2018-08-08 |
公开(公告)号: | CN109614495A | 公开(公告)日: | 2019-04-12 |
发明(设计)人: | 龙世增;蔡瑞初;毕辉;李楠 | 申请(专利权)人: | 广州初星科技有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林丽明 |
地址: | 511400 广东省广州市番*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 图谱 文本信息 知识库 关系提取模块 模型库管理 公司实体 关系抽取 提取数据 挖掘系统 训练模块 用户反馈 预测模块 准确度 挖掘 模型库 样本库 存储 补充 预测 保证 发现 学习 | ||
1.一种结合知识图谱和文本信息的相关公司挖掘方法,其特征在于结合知识图谱和文本信息的相关公司挖掘包括有:
深度学习关系抽取模块(1):通过样本接口从样本库中提取公司的相关文本输入预训练的end-to-end神经网络模型,输出文本中所有实体及相关关系的三元组;
知识库关系提取模块(2):提取公司间特殊实体的相关关系,如公司间类似的经营范围,用户群体;将其当作知识图谱特殊的边参与到PRA的计算中;这样相当于是对知识图谱表达的实体关系所预测的公司间的关系这一过程做了加强,增强了预测的可靠性;
PRA训练模块(3):在起始点公司A处,遍历限定集中的每一个实体,若存在关系,则标记为1;若不存在,则标记为0;这样从A开始,就产生了一条短路径,然后将其与对应的权重θ相乘,并将起点和终点相同的路径得分相加,得到一个score;依此类推,得到不同终点对应的所有路径的score;最高的score代表的路径则表达了公司间的关系最强;然后用深度学习抽取的公司间的关系作为PRA训练时的标签,对路径进行人工划分,作为对公司间潜在关系的推理,最终得到一个公司关系的分类模型;而公司间的关系不止一种,竞争对手、合作伙伴、上下游、持股、控股都是属于公司间的关系;每种关系需要单独训练一个PRA路径的权重分布,然后将各个关系作为参数放入模型;
PRA预测模块(4):输入公司A和公司B通过PRA模型后通过计算score会得到一条路径;将这条路径与训练时学习到规则进行比对,看这条路径属于哪一种关系类型;由于PRA训练模块已经完成了根据路径进行关系推理的过程,因此在预测时直接输出推理结果;若给出公司A及关系R,则在模型中根据PRA训练模块中的关系参数找到对应的训练好的权重分布,并将所有与A有关的公司输入模型,最终得分最高的公司与A存在关系R的概率最高;
模型库管理模块(5):在deep-learning抽取实体及实体关系三元组时,需要从模型库中导入end-to-end的神经网络模型;PRA训练模块中训练好的PRA模型也需要及时存入模型库,在预测的时候调取;模型库中有针对不同领域训练好的深度学习模型集合,根据需要调取不同的end-to-end模型;训练的PRA模型也需要及时更新;
用户反馈模块(6):对于预测的公司关系通过用户反馈接口接受用户的反馈;如果预测错误,管理员审核后可以进行纠错,再将纠错后的公司关系重新输入model进行训练,这样形成一个model迭代的过程,能进一步提高预测的准确率;
结合知识图谱和文本信息的相关公司挖掘方法是:上述六个模块中,深度学习关系抽取模块和知识库关系提取模块由模型库管理模块导入,并作为整个模型的输入,放入PRA模块进行训练及预测,预测的结果进入用户反馈模块进行用户纠错反馈。
2.根据权利要求1所述的结合知识图谱和文本信息的相关公司挖掘方法,其特征在于,end-to-end模型采用了LSTM-RC的联合模型,不同于流水线式的命名实体识别-关系抽取模型,其采用了参数共享,充分利用了命名实体识别和关系抽取之间的联系信息,抽取的效果也更好,end-to-end不需对文本做其他的处理即可得到实体关系三元组,有利于知识图谱的快速构建。
3.根据权利要求1所述的结合知识图谱和文本信息的相关公司挖掘方法,其特征在于,在用PRA计算两个公司的之间的关系时,在联系两个公司的实体之间也会有相关关系,这些相关关系连接起来形成一条A公司通往B公司的路径,同时,A’和B’之间的路径可能不止一条,此时需要将所有出现的路径综合考虑;对路径的知识表示,即得到两个公司的直接关系,就是关系推理的过程;而直接关系又是通过deep-learning抽取出来;因此,将DL抽取出来的各个关系作为各个权重分布的laebl,将各个路径所对应的短路径作为特征,训练特征的权重分布,即可得到各个关系种类的PRA训练模型;每个关系种类对应一个权重分布,并将关系种类放入列表中作为参数供预测时提取;
另外,输入公司A和关系,在知识图谱中得到所有与A存在这种关系的公司B,以公司A为起点,通过PRA计算,从A公司随机游走,通过限定集中的实体,会产生一定数量的游走路径,将每一段路径其乘以对应的θ,可得每条路径的score,score的高低代表了关系的紧密程度,按score的排序输出所有与A有关的公司B。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州初星科技有限公司,未经广州初星科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810898419.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种文本分类方法及相关装置
- 下一篇:一种基于知识图谱的低保鉴别方法