[发明专利]构建配置文件以及抽取结构化信息的方法、装置在审
申请号: | 201910329838.8 | 申请日: | 2019-04-23 |
公开(公告)号: | CN110162786A | 公开(公告)日: | 2019-08-23 |
发明(设计)人: | 贾巍;高原;戴岱;肖欣延 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/335;G06F16/33 |
代理公司: | 北京鸿德海业知识产权代理事务所(普通合伙) 11412 | 代理人: | 田宏宾 |
地址: | 100085 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 配置文件 构建配置文件 抽取结构 候选句 文本 抽取 分词处理 目标信息 目标语句 属性信息 文本数据 构建 结构化信息 | ||
本发明提供了一种构建配置文件以及抽取结构化信息方法、装置,构建配置文件的方法为:确定构建的配置文件对应的应用领域;获取对应应用领域的候选句;获取对应应用领域的属性信息;根据候选句与属性信息构建对应应用领域的配置文件。抽取结构化信息的方法为:获取用户输入的待处理文本以及与待处理文本所属应用领域对应的配置文件;对待处理文本进行分词处理得到分词处理后的文本数据;根据配置文件中的候选句从文本数据中抽取目标语句;根据配置文件中的属性值从目标语句中抽取目标信息;根据配置文件中属性与属性值之间的对应关系将所抽取的目标信息添加到对应的属性中,得到对应待处理文本的结构化信息。本发明能够提升配置文件的生成效率。
【技术领域】
本发明涉及自然语言处理技术领域,尤其涉及一种构建配置文件以及抽取结构化信息的方法、装置、设备和计算机存储介质。
【背景技术】
在各个领域中,普遍存在以自然语言记录的文本。我们把这类文本定义为无结构文本,如财报、新闻、病历等。同时在各个领域中,也普遍存在抽取结构化信息的需求。即从无结构文本中,提取一些结构化的属性值,如从财报中提取公司名称、从新闻中提取袭击事件的地点、从病历中提取患者的癌症分期情况等。但由于存在大量的无结构文本,很难直接通过人力进行结构化抽取工作,所以以计算机为基础的结构化抽取软件应运而生。
在现有技术中,结构化抽取软件需要由专业的开发人员进行编程开发;每一个结构化任务都需要进行单独开发;而在很多专业领域,开发人员还需要学习专业知识,所以很多时候现有技术满足不了结构化抽取的需求,存在结构化抽取软件的开发周期长、人力以及时间成本耗费大等问题。
【发明内容】
有鉴于此,本发明提供了一种构建配置文件的方法、装置、设备和计算机介质,能够缩短配置文件的开发周期,降低人力以及时间成本,提升了配置文件的生成效率。
本发明为解决技术问题所采用的技术方案是提供一种构建配置文件的方法,所述方法包括:确定所构建的配置文件对应的应用领域;获取对应所述应用领域的候选句;获取对应所述应用领域的属性信息,所述属性信息中包含属性以及各属性对应的属性值;根据所述候选句以及属性信息构建对应所述应用领域的配置文件,所述配置文件用于对属于所述应用领域的无结构文本进行结构化信息的抽取。
根据本发明一优选实施例,所述方法还包括:在所述配置文件中预设具有相同含义的属性值所对应的归一化值,以用于将多个具有相同含义的属性值转化为所对应的归一化值。
根据本发明一优选实施例,所述方法还包括:在所述配置文件中预设逻辑推理规则,所述逻辑推理规则中包含属性值之间的转换关系,以用于根据相应的属性值推理得到另一属性所对应的属性值。
根据本发明一优选实施例,所述方法还包括:在所述配置文件中预设从无结构文本中抽取目标语句以及目标信息的抽取方式。
本发明还提供一种抽取结构化信息的方法,所述方法包括:获取用户输入的待处理文本以及与所述待处理文本所属应用领域对应的配置文件;对所述待处理文本进行分词处理,得到分词处理后的文本数据;根据所述配置文件中的候选句,从所述文本数据中抽取目标语句;根据所述配置文件中的属性值,从所述目标语句中抽取目标信息;根据所述配置文件中属性与属性值之间的对应关系,将所抽取的目标信息添加到对应的属性中,从而得到对应所述待处理文本的结构化信息;其中所述配置文件由上述构建配置文件的方法预先构建。
根据本发明一优选实施例,在对所述待处理文本进行分词处理,得到分词处理后的文本数据之后,还包括:对所述文本数据中的各词语进行实体识别,并标注各词语的实体标签。
根据本发明一优选实施例,在将所抽取的目标信息添加到对应的属性中之前,还包括:若抽取得到了多个具有相同含义的目标信息,则根据所述配置文件中与该含义对应的归一化值,对多个具有相同含义的目标信息进行归一化处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910329838.8/2.html,转载请声明来源钻瓜专利网。