[发明专利]职位信息图谱生成方法、装置、设备和介质有效
申请号: | 202010041798.X | 申请日: | 2020-01-15 |
公开(公告)号: | CN111241302B | 公开(公告)日: | 2023-09-15 |
发明(设计)人: | 黄昉;李双婕;史亚冰;蒋烨;张扬;朱勇 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 职位 信息 图谱 生成 方法 装置 设备 介质 | ||
本申请实施例公开了一种职位信息图谱生成方法、装置、设备和介质,涉及知识图谱技术,其中,该方法包括:识别语料中每个语句中的触发词,其中,触发词用于表示就职或者卸任的实体关系;确定触发词在每个语句中的位置;根据触发词的位置,抽取每个语句中的实体对、以及实体关系的时间区间;基于实体关系、实体对、以及实体关系的时间区间,生成职位信息图谱。本申请实施例可以减少职位信息抽取的人力成本,提高职位信息抽取的泛化性。
技术领域
本申请实施例涉及计算机技术,具体涉及知识图谱技术,尤其涉及一种职位信息图谱生成方法、装置、设备和介质。
背景技术
知识抽取任务是知识图谱构建中最重要的任务之一,主要是通过自动化或者半自动化的技术,在互联网的海量网页与自然语言文本中,抽取出可用的知识单元,用于补充知识图谱中的实体对属性与实体关系。知识单元通常以SPO三元组的形式构成,包括实体(S)、实体属性/实体对之间的关系(P)以及实体属性值/关联实体(O)这3个要素。
通常,官方发布的政治人物任免的新闻的表述比较正式,表达任免信息的句法比较相似,因此,可以通过设计正则表达式,从官方任免公告或者可靠的新闻来源中直接抽取具体的职位信息。然而,上述实现方式存在以下问题:
1)人力成本高,需要根据句法样式设计正则表达式,针对不同的数据来源和表述方式,还需要做相应的修改;
2)泛化性差,只能针对少量的比较正式的文本进行抽取,不能自适应泛化到其他的新闻语料中。
发明内容
本申请实施例公开一种职位信息图谱生成方法、装置、设备和介质,以减少人力成本,提高职位信息抽取的泛化性。
第一方面,本申请实施例公开了一种职位信息图谱生成方法,包括:
识别语料中每个语句中的触发词,其中,所述触发词用于表示就职或者卸任的实体关系;
确定所述触发词在每个语句中的位置;
根据所述触发词的位置,抽取每个语句中的实体对、以及所述实体关系的时间区间;
基于所述实体关系、实体对、以及所述实体关系的时间区间,生成职位信息图谱。
上述申请中的一个实施例具有如下优点或有益效果:提出了一种基于包含时间区间的结构化数据格式生成职位信息图谱的方式,对构建职位信息图谱的数据格式进行了统一的规范化;由于本实施例对职位信息的抽取不依赖预先设置的正则表达式,减少了人为修改正则表达式的成本消耗,提高了职位信息抽取的泛化性。
可选的,所述识别语料中每个语句中的触发词,包括:
对所述语料中的每个语句进行分词,得到每个语句中的多个词语;
将所述多个词语分别在预先确定的触发词表中进行匹配;
将匹配成功的词语确定为所述触发词。
可选的,在将所述多个词语分别在预先确定的触发词表中进行匹配之前,所述方法还包括:
将通过对所述语料中的每个语句进行分词得到的各词语进行词性标注;
根据知识抽取需求,以及词性标注的动词在所述语料中的词频信息,确定所述触发词表。
可选的,根据所述触发词的位置,抽取每个语句中的实体对、以及所述实体关系的时间区间,包括:
根据所述触发词的位置,确定每个语句中的其他词语与所述触发词的距离;
基于每个语句的分词序列、所述触发词的位置、以及每个语句中的其他词语与所述触发词的距离,利用预先训练的特征提取模型,对每个语句进行特征提取;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010041798.X/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置