[发明专利]终端门店名称的提取方法、装置、设备和计算机存储介质有效
申请号: | 202211189096.1 | 申请日: | 2022-09-28 |
公开(公告)号: | CN115270800B | 公开(公告)日: | 2023-03-24 |
发明(设计)人: | 许名智;林沛欣;关梓文;许洁斌 | 申请(专利权)人: | 广州市玄武无线科技股份有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/242 |
代理公司: | 广州骏思知识产权代理有限公司 44425 | 代理人: | 王晶 |
地址: | 510000 广东省广州市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 终端 店名 提取 方法 装置 设备 计算机 存储 介质 | ||
1.终端门店名称的提取方法,其特征在于,包括如下步骤:
S1:获取待提取文本;
S2:对待提取文本进行预处理,得到预处理文本;步骤S2包括:S21:基于符号和特殊字符建立正则表达式,并利用正则表达式去除待提取文本中的符号和特殊字符,得到初始预处理文本;S22:识别、并去除所述初始预处理文本中的地址信息,得到预处理文本,且地址信息包括省、市、区以及街道中的至少一种信息;
S3:对预处理文本进行分词处理,得到分词单元;步骤S3包括:S31:获取所述产品特性词典、所述地标性词典和分词模型,并将所述产品特性词典、所述地标性词典输入所述分词模型中,得到分词解释器;S32:利用所述分词解释器对所述预处理文本进行切分,得到所述分词单元;
步骤S32包括:S321:获取统计词典,并利用统计词典构造预处理文本的前缀词典;S322:基于前缀词典,对所述预处理文本进行预切分,得到预处理文本的切分组合;S323:基于预处理文本的切分组合,构建预处理文本的有向无环图;S324:按照从后向前的顺序,利用动态规划查找所述有向无环图的最大概率路径;S325:基于所述有向无环图的最大概率路径确定所述预处理文本的切分位置,并对预处理文本进行切分,得到所述分词单元;
S4:基于分词单元建立分词数组,并将分词数组中的元素分别与停用词词典、产品特性词典、地标性词典和归一化词典进行匹配,并根据匹配结果对分词数组进行优化,得到优化的分词数组;
S5:将优化的分词数组中的元素进行拼接,得到初始终端门店名称;
S6:基于初始终端门店名称的字符长度对初始终端门店名称进行优化,得到终端门店名称。
2.根据权利要求1所述的终端门店名称的提取方法,其特征在于,步骤S325中,对预处理文本进行切分,得到所述分词单元,包括:
对预处理文本进行切分,得到多个词;
判断多个词的词性,并根据多个词的词性对多个词按照名称词、产品特性词和地标性词的顺序进行排列,得到所述分词单元。
3.根据权利要求1-2任一项所述的终端门店名称的提取方法,其特征在于,步骤S4包括:
S41:获取停用词词典,并将所述分词数组中的元素分别与所述停用词词典中的词进行匹配,当匹配成功时删除元素中的停用词,得到第一优化数组;
S42:将所述第一优化数组中的元素分别与产品特性词典中的词和地标性词典中的词进行匹配,当匹配成功时删除匹配成功的元素,得到第二优化数组;
S43:获取归一化词典,并将所述第二优化数组中的元素分别与归一化词典中的词进行匹配,当匹配成功时,将匹配成功的元素替换为归一化词典中的词;
S44:重复步骤S41-S43,直到优化的分词数组的元素在停用词词典、产品特性词典中、地标性词典以及归一化词典中均不存在匹配结果,得到优化的分词数组。
4.根据权利要求3所述的终端门店名称的提取方法,其特征在于,步骤S6包括:
S61:获取初始终端门店名称的字符长度和字符长度阈值;
S62:将初始终端门店名称的字符长度和字符长度阈值进行比较,当初始终端门店名称的字符长度大于或等于字符长度阈值时,确定所述初始终端门店名称为终端门店名称;
或者,
当初始终端门店名称的字符长度小于字符长度阈值时,重复步骤S3-S5,得到改进的初始终端门店名称;当改进的初始终端门店名称的字符长度大于或等于字符长度阈值时,确定改进的初始终端门店名称为终端门店名称;当改进的初始终端门店名称的字符长度小于字符长度阈值时,确定预处理文本为终端门店名称。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州市玄武无线科技股份有限公司,未经广州市玄武无线科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211189096.1/1.html,转载请声明来源钻瓜专利网。