[发明专利]一种基于图嵌入与CRF知识融入的地址要素识别方法有效

专利信息
申请号: 202110746162.X 申请日: 2021-07-01
公开(公告)号: CN113255346B 公开(公告)日: 2021-09-14
发明(设计)人: 毛星亮;陈晓红;路毅恒;徐雪松;李芳芳 申请(专利权)人: 湖南工商大学
主分类号: G06F40/284 分类号: G06F40/284;G06F40/216;G06F16/29;G06F16/22;G06F40/30;G06N3/04;G06N3/08
代理公司: 长沙惟盛赟鼎知识产权代理事务所(普通合伙) 43228 代理人: 黄敏华
地址: 410205 *** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 嵌入 crf 知识 融入 地址 要素 识别 方法
【说明书】:

发明涉及一种基于图嵌入与CRF知识融入的地址要素识别方法,具体包括如下步骤:S1:构建地址要素关系图;S2:图嵌入模型输出地址要素的向量表征;S3:统计语料中各类地址要素之间的转移矩阵;S4:将S3中的转移矩阵作为CRF模型的转移矩阵;S5:由Word2Vec词嵌入模型输出地址要素的向量表征;S6:构建并训练一个BiLSTM模型,输出抽取出的地址要素的向量表征;S7:将S6中输出的地址要素的向量表征输入S4中的CRF模型,得到地址要素的最终识别结果。本发明能从两个角度融入地址要素相关的先验知识,加速模型收敛,提升模型的精度。

技术领域

本发明涉及一种基于图嵌入与CRF知识融入的地址要素识别方法。

背景技术

网络上存在大量与地址信息相关的文本,如物流服务、智慧城市建设,都需要涉及到地址要素的提取与分析。

地址要素识别可以分为传统的基于字符匹配的方法、基于统计机器学习与目前主流的基于深度学习的方法。传统的基于字符匹配的方法需要人为设计特定的规则识别其中的关键字,针对某类比较规范的地址可以取得较好效果,但是费时费力,而且适用场景有限,不能识别未登录词。后来统计机器学习的方法一定程度上避免了人工规则的设计,能取得不错的效果,但是提取到的语义信息有限。有些是同时使用规则匹配与统计机器学习方法,在原有基础上得到提升。

之前基于深度学习的地址要素识别方法忽略了先验知识的融入,因此模型收敛速度较慢,同时也一定程度上影响了模型的精度。

现有技术中存在的问题:1.现有进行地址要素识别的深度学习方法,没有同时考虑到地址要素的同质性和结构性信息。2.现有的地址要素识别方法中虽然使用了条件随机场,有些是使用了字符间的转移概率,但是忽略了先验的不同种类地址要素之间的转移概率。

发明内容

本发明的目的是提供一种基于图嵌入与CRF知识融入的地址要素识别方法,使用深度学习方法不仅避免了人工设计规则,自动提取地址文本的深层语义,同时从两个角度融入地址要素相关的先验知识,加速模型收敛,提升模型的精度。

为达到上述目的而采用了一种基于图嵌入与CRF知识融入的地址要素识别方法,具体包括如下步骤:

S1:构建地址要素关系图;

S2:构建并训练一个图嵌入模型,向图嵌入模型输入S1中的地址要素关系图,由图嵌入模型输出地址要素关系图中的地址要素的向量表征;

S3:统计语料中各类地址要素之间的转移矩阵;

S4:构建一个CRF模型,在CRF模型初始化时,将S3中的转移矩阵作为CRF模型的转移矩阵;

S5:构建并训练一个Word2Vec词嵌入模型,向词嵌入模型输入地址要素文本,由词嵌入模型输出地址要素文本中的地址要素的向量表征;

S6:构建并训练一个BiLSTM模型,使用S2中与S5中输出的地址要素的向量表征,共同作为BiLSTM模型的输入,由BiLSTM模型抽取出语料中的地址要素,输出抽取出的地址要素的向量表征;

S7:将S6中输出的地址要素的向量表征输入S4中的CRF模型对其进行训练,通过收敛后的CRF模型,得到地址要素的最终识别结果。

作为本发明基于图嵌入与CRF知识融入的地址要素识别方法进一步的改进,S1中:

所述地址要素关系图包括:全国行政区划图,其中的市与对应的省连线。

作为本发明基于图嵌入与CRF知识融入的地址要素识别方法进一步的改进,S2中:

所述图嵌入模型中具有Node2Vec网络,设定采样策略,按照采样策略对地址要素关系图进行序列采样,获得序列训练Node2Vec网络,由Node2Vec网络输出地址要素的向量表征。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南工商大学,未经湖南工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110746162.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top