[发明专利]一种基于深度学习的人物关系图谱构建方法及系统有效

申请号：	202010358399.6	申请日：	2020-04-29
公开（公告）号：	CN111538849B	公开（公告）日：	2023-04-07
发明（设计）人：	李瑞轩;张纯鹏;辜希武;李玉华	申请（专利权）人：	华中科技大学
主分类号：	G06F16/36	分类号：	G06F16/36;G06F16/35;G06F16/34;G06F40/186;G06N3/0455;G06N3/08
代理公司：	华中科技大学专利中心 42201	代理人：	李智
地址：	430074 湖北***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度学习人物关系图谱构建方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度学习的人物关系图谱构建方法，其特征在于，所述方法包括以下步骤：

S1：爬取电子文本，得到初始语料，所述初始语料包括人物信息；对所述初始语料中人物属性进行标注，得到样本数据并进行预处理；

S2：设置模型超参数，结合步骤S1预处理后的样本数据建立深度学习模型；

S3：定义具有层次化的人物信息模板，所述人物信息模板包括多个元组，所述元组由一个或多个人物属性组成；基于所述深度学习模型提取人物属性信息，对所述人物属性信息进行筛选，并填充所述人物信息模板；

所述步骤S3包括：

S31：定义具有层次化的人物信息模板，记为M＝{a₁,a₂,…,a_r|r≤m}，元组a由一个或者多个人物属性组成，即a＝{l_i,l_i+1,…,l_j|i≤j}；

S32：根据所述深度学习模型，得到每个字符对应的BIO标签，从而得到初步结构化的人物属性信息；

S33：统计经步骤S32处理后得到的人物属性信息，确定每个人物属性出现的次数，记为N＝{n₁,n₂,…,n_m}，其中m为标签数量；

S34：根据步骤S31定义的人物模板信息，填充人物模板；对于由单个人物属性构成的元组，直接填充即可；对于由多个人物属性构成的元组，列出元组包含的所有人物属性对应的值的组合，再进行填充；

S35：确定元组的向量表示，具体为：每个元组由x个人物属性构成，记为tuple＝{l_i,l_i+1,…,l_j|i+x-1＝j}，其中每个人物属性由k个字符构成，即l_i＝{t₁,t₂,…,t_k}，则每个人物属性的向量表示为label_v_i＝MaxPooling{v₁,v₂,…,v_k}，其中，MaxPooling为向量的最大池化操作；将每个人物属性的向量表示进行拼接，得到元组的向量表示，即tuple_v_i＝(label_v_i,label_v_i+1,…,label_v_j)；