[发明专利]终端门店名称的提取方法、装置、设备和计算机存储介质有效

专利信息
申请号: 202211189096.1 申请日: 2022-09-28
公开(公告)号: CN115270800B 公开(公告)日: 2023-03-24
发明(设计)人: 许名智;林沛欣;关梓文;许洁斌 申请(专利权)人: 广州市玄武无线科技股份有限公司
主分类号: G06F40/295 分类号: G06F40/295;G06F40/242
代理公司: 广州骏思知识产权代理有限公司 44425 代理人: 王晶
地址: 510000 广东省广州市*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 终端 店名 提取 方法 装置 设备 计算机 存储 介质
【说明书】:

发明涉及一种终端门店名称的提取方法、装置、设备和计算机存储介质,该方法包括如下步骤:获取待提取文本;对待提取文本进行预处理,得到预处理文本;对预处理文本进行分词处理,得到分词单元;基于分词单元建立分词数组,并将分词数组中的元素分别与停用词词典、产品特性词典、地标性词典和归一化词典进行匹配,并根据匹配结果对分词数组进行优化,得到优化的分词数组;将优化的分词数组中的元素进行拼接,得到初始终端门店名称;基于初始终端门店名称的字符长度对初始终端门店名称进行优化,得到终端门店名称,其可以从复杂的待提取文本中快速、准确的提取终端门店的名称。

技术领域

本发明涉及数据处理技术领域,特别是涉及一种终端门店名称的提取方法、装置、设备和计算机存储介质。

背景技术

在新零售时代,快消行业的营销运营日益数字化,快消行业对终端管理的需求主要集中在如何通过人工智能解决销售过程中,人员、终端、产品、渠道各个业务对象的管理问题,而终端作为快消零售企业的“人货场”中“场”的主要承载体,是快消零售企业最接近消费端的触角,是企业获取消费端数据的主要入口,所以对终端的管理是快消零售企业尤为重要的一个环节,而获得终端门店的名称是对终端进行管理的基础。

终端数据主要包括终端门店的名称、地址、经纬度坐标以及联系方式等信息,但是终端数据的来源多样且没有固定格式,导致不能准确获取终端门店的名称,其将会对终端门店的数据挖掘产生影响。

目前,人们主要通过以下两种方式获取终端门店的名称,即:(1)使用自然语言处理技术对关键字进行提取,以获得终端门店的名称,但是,直接使用自然语言处理技术存在准确性差、且不能纠正错误信息的问题,而且,其应用范围广和处理速度慢,不能针对性的进行终端门店的名称提取;(2)利用人工提取,但是终端数据量大,降低了提取效率和准确性。

发明内容

基于此,本发明的目的在于,提供一种终端门店名称的提取方法、装置、设备和计算机存储介质,其具有终端门店名称提取准确性高的优点。

终端门店名称的提取方法,包括如下步骤:

S1:获取待提取文本;

S2:对待提取文本进行预处理,得到预处理文本;

S3:对预处理文本进行分词处理,得到分词单元;

S4:基于分词单元建立分词数组,并将分词数组中的元素分别与停用词词典、产品特性词典、地标性词典和归一化词典进行匹配,并根据匹配结果对分词数组进行优化,得到优化的分词数组;

S5:将优化的分词数组中的元素进行拼接,得到初始终端门店名称;

S6:基于初始终端门店名称的字符长度对初始终端门店名称进行优化,得到终端门店名称。

本发明所述的终端门店名称的提取方法,可以从复杂的待提取文本中快速、准确的提取终端门店的名称;而且,本发明的终端门店名称的提取方法还通过初始终端门店名称的字符长度对其进行优化,以避免待提取文本被过渡预处理而导致提取的终端门店名称过短而不能满足其使用需求。

获取的初始终端门店名称的字符长度过短而对终端门店名称的准确性产生影响,进一步提高了终端门店名称提取的准确性。

进一步地,步骤S2包括:

S21:基于符号和特殊字符建立正则表达式,并利用正则表达式去除待提取文本中的符号和特殊字符,得到初始预处理文本;

S22:识别、并去除所述初始预处理文本中的地址信息,得到预处理文本,且地址信息包括省、市、区以及街道中的至少一种信息。

进一步地,步骤S3包括:

S31:获取所述产品特性词典、所述地标性词典和分词模型,并将所述产品特性词典、所述地标性词典输入所述分词模型中,得到分词解释器;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州市玄武无线科技股份有限公司,未经广州市玄武无线科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202211189096.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top