[发明专利]语料中地理位置的识别方法及其相关设备在审
申请号: | 202110293571.9 | 申请日: | 2021-03-19 |
公开(公告)号: | CN113065354A | 公开(公告)日: | 2021-07-02 |
发明(设计)人: | 沈越 | 申请(专利权)人: | 平安普惠企业管理有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06N20/00 |
代理公司: | 深圳市世联合知识产权代理有限公司 44385 | 代理人: | 汪琳琳 |
地址: | 518000 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语料 地理位置 识别 方法 及其 相关 设备 | ||
本申请实施例属于人工智能技术领域,应用于智慧城市管理,涉及一种语料中地理位置的识别方法及其相关设备,包括接收待识别语料,基于字段生成策略对所述待识别语料进行拆分处理,获得多个待识别字段;接收城市三级基表,基于所述城市三级基表的表结构和表内容构建特征概率模型,其中,所述城市三级基表包括三个不同层级的地理位置名称,且所述不同层级的地理位置名称之间具有关联关系;基于所述特征概率模型对所述待识别字段进行校正操作,获得地理位置特征。其中,特征概率模型可存储于区块链中。本申请有效纠正对语料中地理位置名称的纠正,实现输出准确的地理位置名称。
技术领域
本申请涉及人工智能技术领域,尤其涉及语料中地理位置的识别方法及其相关设备。
背景技术
随着计算机技术的不断革新和发展,计算机技术已经广泛应用于各行各业中,许多企业通过实体抽取模型对口语化语料中的地理位置进行识别。以实现获得语料中的地理位置名称。
但口语语料中常常存在不准确、不完整的地理位置名称,在通过实体抽取模型进行抽取时,模型难以对地理位置名称的进行准确的识别和输出。并且,实体抽取模型在场景应用中有所局限,难以做到“千人千面”。细粒度训练模型成本较高,根据粒度粗细需要不同量级训练语料,且人工标记时间较长。对于目前需要以细粒度识别口语化语料中地理位置的场景来说,存在响应速度慢,且准确率较低的情况。
发明内容
本申请实施例的目的在于提出一种语料中地理位置的识别方法及其相关设备,有效提高计算机对语料中地理位置识别的准确率。
为了解决上述技术问题,本申请实施例提供一种语料中地理位置的识别方法,采用了如下所述的技术方案:
一种语料中地理位置的识别方法,包括下述步骤:
接收待识别语料,基于字段生成策略对所述待识别语料进行拆分处理,获得多个待识别字段;
接收城市三级基表,基于所述城市三级基表的表内容和表结构构建特征概率模型,其中,所述城市三级基表包括三个不同层级的地理位置名称,且所述不同层级的地理位置名称之间具有关联关系;
基于所述特征概率模型对所述待识别字段进行校正操作,获得地理位置特征。
进一步的,所述基于字段生成策略对所述待识别语料进行拆分处理,获得多个待识别字段的步骤包括:
对所述待识别语料进行单个字的拆分操作,获得多个单字;
将所述单字基于所述待识别语料进行延展,获得所述多个待识别字段。
进一步的,所述将所述单字基于所述待识别语料进行延展,获得所述多个待识别字段的步骤包括:
基于预设的多个不同的延展数值,分别将每个所述单字在所述待识别语料中进行延展,获得所述多个待识别字段。
进一步的,所述基于所述特征概率模型对所述待识别字段进行校正操作,获得地理位置特征的步骤包括:
基于所述特征概率模型中的状态转移概率方程,对所述待识别字段进行校正操作,获得所述地理位置特征。
进一步的,所述城市三级基表设定的表结构层级包括省级、市级和县级,所述基于所述特征概率模型中的状态转移概率方程,对所述待识别字段进行校正操作,获得所述地理位置特征的步骤包括:
将所述待识别字段与所述地理位置名称进行匹配,确定是否匹配成功;
当所述待识别字段与所述地理位置名称匹配成功时,将匹配成功的地理位置名称作为目标地理位置名称;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安普惠企业管理有限公司,未经平安普惠企业管理有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110293571.9/2.html,转载请声明来源钻瓜专利网。