[发明专利]店铺名称挖掘方法及装置有效
申请号: | 202010078834.X | 申请日: | 2020-02-03 |
公开(公告)号: | CN111325025B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 李向阳 | 申请(专利权)人: | 口口相传(北京)网络技术有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/216 |
代理公司: | 北京中强智尚知识产权代理有限公司 11448 | 代理人: | 王欢 |
地址: | 100102 北京市朝*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 店铺 名称 挖掘 方法 装置 | ||
本发明公开了一种店铺名称挖掘方法及装置。该方法包括:搜集店铺名称,根据搜集到的店铺名称,生成核心短语集合和特征短语集合;对特征短语集合及核心短语集合中的任一短语进行分词,计算任一分词结果作为核心词的概率以及作为特征词的概率;获取待处理的目标店铺名称,对目标店铺名称进行分词,确定至少一个切分点,其中,将切分点之前的词语作为核心词,将切分点之后的词语作为特征词,根据核心词概率及特征词概率计算各个切分点对应的切分概率,根据切分概率确定目标店铺名称的目标切分点,提升了挖掘的准确率,节省了挖掘时间,简化了处理流程,克服了现有技术采用N‑gram方法来一级一级地挖掘导致重复操作,且耗费时间的问题。
技术领域
本发明涉及互联网技术领域,具体涉及一种店铺名称挖掘方法及装置。
背景技术
店铺名称主要分为两个部分:一部分用于描述该店铺比较特有的名称(称之为核心词),另外一部分用于描述该店铺的类别或者主营菜品(称之为特征词)等。一般情况下,该店铺的核心词处于该店铺名称的前边部分,特征词处于该店铺名称的后边部分。
目前店铺名称的挖掘方法是通过挖掘特征词,主要是利用N-gram方法及人工审核的方式,首先利用N-gram方法进行分词,其中,N的取值与店铺名称的长度相关,例如,店铺名称长度为5,那么N的取值分别为1、2、3、4、5,具体地,先提取一个后缀词,统计高频,并进行人工复核,然后通过两个后缀词,3个后缀词进行重复操作的方式来进行处理,需要重复5次这样的操作,造成店铺名称挖掘效率低,以及挖掘的准确率低。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的店铺名称挖掘方法及装置。
根据本发明实施例的一个方面,提供了一种店铺名称挖掘方法,包括:
搜集店铺名称,根据搜集到的店铺名称,生成核心短语集合和特征短语集合;
对特征短语集合及核心短语集合中的任一短语进行分词,计算任一分词结果作为核心词的概率以及作为特征词的概率;
获取待处理的目标店铺名称,对目标店铺名称进行分词,确定至少一个切分点,其中,将切分点之前的词语作为核心词,将切分点之后的词语作为特征词,根据核心词概率及特征词概率计算各个切分点对应的切分概率,根据切分概率确定目标店铺名称的目标切分点。
可选地,搜集店铺名称,根据搜集到的店铺名称,生成核心短语集合和特征短语集合进一步包括:
S1,获取多个店铺名称,筛选店铺名称长度小于或等于预设字长的店铺名称作为核心短语;
S2,利用核心短语进行店铺名称的匹配,将未匹配的店铺名称部分作为特征短语记录至特征短语集合中;
S3,利用特征短语进行店铺名称的匹配,将未匹配的店铺名称部分作为核心短语记录至核心短语集合中;迭代执行S2-S3,得到特征短语集合及核心短语集合。
可选地,根据核心词概率及特征词概率计算各个切分点对应的切分概率,根据切分概率确定目标店铺名称的目标切分点进一步包括:
针对任一切分点,查询确定核心词的概率及特征词的概率,根据核心词概率及特征词概率计算该切分点对应的切分概率;
将最大切分概率对应的切分点确定为目标店铺名称的目标切分点。
可选地,对特征短语集合及核心短语集合中的任一短语进行分词,计算任一分词结果作为核心词的概率以及作为特征词的概率进一步包括:
对特征短语集合及核心短语集合中的任一短语进行分词,统计任一分词结果在核心短语集合中出现的第一词频以及在特征短语集合中出现的第二词频;
根据第一词频及第二词频计算该分词结果作为核心词的概率以及作为特征词的概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于口口相传(北京)网络技术有限公司,未经口口相传(北京)网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010078834.X/2.html,转载请声明来源钻瓜专利网。