[发明专利]基于字典和序列标注模型实体属性抽取方法、系统及设备有效

专利信息
申请号: 202010377921.5 申请日: 2020-05-07
公开(公告)号: CN111611799B 公开(公告)日: 2023-06-02
发明(设计)人: 么新新;张学龙;谭培波;刘弦弦 申请(专利权)人: 北京智通云联科技有限公司
主分类号: G06F40/289 分类号: G06F40/289;G06F40/30;G06F40/295;G06F18/214
代理公司: 北京八月瓜知识产权代理有限公司 11543 代理人: 李斌
地址: 100020 北京市朝阳*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 字典 序列 标注 模型 实体 属性 抽取 方法 系统 设备
【说明书】:

发明公开了一种基于字典和序列标注模型的实体属性抽取方法、系统及设备,所述方法包括:根据预先创建的字典对输入文本进行分词处理,得到分词后的文本,并且得到分词后的文本中的属性名和与属性名对应的实体,创建包含实体和属性名的一个或多个数据节点;依次抽取每个数据节点中的属性名,将该属性名的标签定义为key,将其他属性名的标签定义为NN,结合定义的属性名的标签,将分词后的文本输入到预先训练好的序列标注模型中,得到分词后的文本中所有词对应的标签,根据所有词对应的标签的特定含义确定该属性名对应的属性值,进而得到输入文本中所有包含有实体、属性名和属性值的最终实体属性结果。

技术领域

本发明涉及人工智能技术领域,尤其是涉及一种基于字典和序列标注模型的实体属性抽取方法、系统及设备。

背景技术

在现有技术中,实体通常是文本中描述的对象,例如人名、地名、机构名等,属性是指实体中属性或者组成成分,例如:性别、姓名、年龄等。实体属性抽取是指从文本中抽取出实体,属性名,属性值信息对。目前常用的方法有三种。

方法一:基于模板的抽取,首先规定需要抽取的实体属性信息,建立模板文件;然后建立抽取的规则。这种方法可移植性差,只适用于半结构化的文本,如内容随时改变,但结构往往是固定的网页;

方法二:基于字典匹配的抽取,基于人为整理的实体字典、属性名到实体字典、属性值到属性名字典这三种先验知识,匹配得到文本中实体属性信息。这种方法不适用于属性值不能穷举的情况,例如,数值性的属性值。

方法三:基于统计的序列标注模型的抽取,将实体属性的抽取简化为命名实体标注,利用序列标注模型捕获输入文本的上下文语义以及输出标签的前后关系。该方法不适用于文本中出现多个实体或属性的情况。

在工业领域的问答或搜索中实体属性抽取方法,一般采用后两种方法或其混合方法。由于中文表达形式丰富多样,对于以下形式的表述采用这两种方法是不适用的:

(1)、若文本中包含多个实体属性,如“井深为100米、井型为水平井的井有哪些?”文本中对于实体“井”有两个属性井深,100米、井型,水平井,因属性名“井深”的对应的属性值包含数字,是不可穷举,所以不能用基于字典的匹配来抽取属性值。若采用基于统计的序列标注模型进行抽取,例如,条件随机场(Conditional Random Fields简称为CRF),为了得到属性名和属性值的一一对应关系,需要对不同的属性名,属性值打上不同含义的标签,如:“井深”:key_1,“100米”:value_1,“井型”:key_2,“水平井”:value_2。以便后续根据标签的含义,找到属性名和属性值对应关系。采用统计的序列标注模型,需要提前定义好标签的含义、种类以及数量,但是文本中包含属性对的数量是不可控,且不同的属性值一般出现的上下文语境是相似的,若对其打上不同类型的标签,不利于序列标注模型在训练时特征的抽取,从而最终影响属性抽取的效果。

(2)、多个属性名对应一个属性值时,如“产水量和产液量都是100顿的井有哪些?”问题中实体“井”有两个属性产水量,100顿、产液量,100顿,因为两个属性值均不可穷举,所以也不能基于字典的匹配来抽取属性值。两个属性值均是“100顿”,且该词在问句中只出现过一次,而统计的序列标注模型目前不能将文本中同一个词或字打上不同的标签,从而不能将属性值“100顿”对应到两个属性名上。

综上所述,现有技术中的实体属性抽取存在以下问题需要解决:1、属性值多样性问题;2、因文本中属性个数的不确定导致标签种类和数目难以确定的问题;3、多个属性名对应一个属性值引起的属性名和属性值难以对应的问题。目前亟须一种技术方案来解决上述技术问题。

发明内容

本发明的目的在于提供一种基于字典和序列标注模型的实体属性抽取方法、系统及设备,旨在解决现有技术中的上述问题。

本发明提供一种基于字典和序列标注模型的实体属性抽取方法,包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京智通云联科技有限公司,未经北京智通云联科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010377921.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top