[发明专利]基于字典和序列标注模型实体属性抽取方法、系统及设备有效
申请号: | 202010377921.5 | 申请日: | 2020-05-07 |
公开(公告)号: | CN111611799B | 公开(公告)日: | 2023-06-02 |
发明(设计)人: | 么新新;张学龙;谭培波;刘弦弦 | 申请(专利权)人: | 北京智通云联科技有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06F40/295;G06F18/214 |
代理公司: | 北京八月瓜知识产权代理有限公司 11543 | 代理人: | 李斌 |
地址: | 100020 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 字典 序列 标注 模型 实体 属性 抽取 方法 系统 设备 | ||
1.一种基于字典和序列标注模型的实体属性抽取方法,其特征在于,包括:
根据预先创建的字典对输入文本进行分词处理,得到分词后的文本,并且得到所述分词后的文本中的属性名和与所述属性名对应的实体,创建包含实体和属性名的一个或多个数据节点;
依次抽取每个数据节点中的属性名,将该属性名的标签定义为key,将其他属性名的标签定义为NN,结合定义的所述属性名的标签,将所述分词后的文本输入到预先训练好的序列标注模型中,得到所述分词后的文本中所有词对应的标签,根据所有词对应的标签的特定含义确定该属性名对应的属性值,进而得到所述输入文本中所有包含有实体、属性名和属性值的最终实体属性结果;
创建实体字典、属性名到实体字典和属性值字典,其中,所述实体字典用于管理工业领域中所有的实体,所述属性名到实体字典用于管理实体的属性名和实体的一一对应关系,所述属性值字典用于管理所有可列举的属性值;
根据预先创建的字典对输入文本进行分词处理,得到所述输入文本中的属性名和与所述属性名对应的实体具体包括:
根据实体字典、属性名到实体字典和属性值字典,采用MMSEG算法对输入文本进行分词处理,得到所述输入文本中的属性名,并通过属性名到实体字典得到与所述属性名对应的实体。
2.根据权利要求1所述的方法,其特征在于,所述方法进一步包括:
训练所述序列标注模型:
确定标签的类型,其中,所述类型包括:属性名key、属性值value、属性值起始词Bvalue、属性值中间词Mvalue、属性值结束词Evalue以及无NN;
根据标点符号对训练语料进行分句处理,针对训练语料中每一句文本,基于实体字典、属性名到实体字典以及属性值字典,采用MMSEG算法进行分词处理,将分词处理后每个词的标签定义为NN;
对训练语料中的每一句,判断该句中是否有词包含在属性名到实体字典中所有的属性名中,若判断为否,则将该句删除,继续处理训练语料中的下一句;若判断该句中有一个或多个词包含在属性名到实体字典中所有的属性名中,则循环处理每一个词,将该词对应的标签修改为key,其它词的标签均不变;
对训练语料中的每一句,根据人工处理,获取标签为key的属性名所对应的一个或多个属性值,依次处理每一个属性值,将只包含一个词的属性值的标签修改为value,将包含连续的多个词的属性值中的第一个词的标签修改为Bvalue,最后一个词的标签修改为Evalue,中间词的标签均修改为Mvalue;如果该句中未找到标签为key的属性名所对应的属性值,则不进行任何处理;
基于标注好的训练语料,对序列标注模型进行训练。
3.根据权利要求2所述的方法,其特征在于,根据所有词对应的标签的特定含义确定该属性名对应的属性值具体包括:
将所有词中对应的标签为Bvalue、Mvalue、Evalue且连续的词、和/或为Bvalue、Evalue且连续的词进行合并,合并结果以及标签为value的词均为该属性名对应的属性值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京智通云联科技有限公司,未经北京智通云联科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010377921.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种驾驶员状态监控系统
- 下一篇:用于网络资源推荐的数据处理方法及相关装置