[发明专利]连锁品牌词词库、类别词词库建立方法和装置有效
申请号: | 201310439450.6 | 申请日: | 2013-09-24 |
公开(公告)号: | CN104462143B | 公开(公告)日: | 2018-01-30 |
发明(设计)人: | 刘广权 | 申请(专利权)人: | 高德软件有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司11227 | 代理人: | 王宝筠 |
地址: | 102200 北京市昌*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 连锁 品牌 词库 类别 建立 方法 装置 | ||
1.一种连锁品牌词词库建立方法,其特征在于,包括:
将同一城市兴趣点POI数据库中名称主干相同的POI数据聚合成一个POI数据组,所述POI数据组与所述名称主干对应;
从各个POI数据组中提取所述POI数据组的识别特征;
从所有POI数据组中抽取出名称主干已被标记为连锁品牌词和非连锁品牌词的POI数据组作为训练数据,基于所述训练数据的识别特征进行连锁品牌词识别器的训练;
利用训练后的所述连锁品牌词识别器对所有POI数据组对应的名称主干中未识别的名称主干进行识别,识别出是连锁品牌词的名称主干;
将所述是连锁品牌词的名称主干存储在预置的连锁品牌词词库中。
2.根据权利要求1所述的方法,其特征在于,在利用训练后的所述连锁品牌词识别器对所有POI数据组对应的名称主干中未识别的名称主干进行识别之前,还包括检验过程,所述检验过程包括:
从所有POI数据组中抽取出名称主干已被标记为连锁品牌词和非连锁品牌词的POI数据组作为检验数据,所述检验数据和所述训练数据为不同的数据;
利用所述连锁品牌词识别器对所述检验数据的名称主干进行识别,识别出是连锁品牌词的名称主干;
根据所述连锁品牌词识别器对所述检验数据的识别结果,计算所述连锁品牌词识别器对连锁品牌词的识别准确率和/或识别召回率,其中,所述识别准确率等于识别结果中是准确的连锁品牌词的名称主干的数量除以识别结果中识别出的是连锁品牌词的名称主干的数量,所述召回率等于识别结果中是准确的连锁品牌词的名称主干的数量除以所述检验数据中已被标记为连锁品牌词的名称主干的数量,所述准确的连锁品牌词的名称主干是既被标记为连锁品牌词又被识别为连锁品牌词的名称主干;
判断所述识别准确率和/或识别召回率是否大于或等于各自对应的阈值;
若否,则调节所述连锁品牌词识别器,利用调节后的所述连锁品牌词识别器重复所述检验过程中的第二至第四个步骤。
3.根据权利要求2所述的方法,其特征在于,所述连锁品牌词识别器为线性分类器,所述线性分类器为:
y=∑(Wi×Xi)+b
其中,Wi为第i个识别特征的权重系数,Xi为第i个识别特征的值,b为常数项,当y大于或等于预设阈值则识别所述POI数组对应的名称主干为连锁品牌词,当y小于所述预设阈值则识别所述POI数据组对应的名称主干为非连锁品牌词。
4.根据权利要求1~3任一项所述的方法,其特征在于,POI数据组的识别特征为以下任意一个或任意多个组合:
空间分布距离;空间分布熵;POI数据组中名称带有分店标志的POI数据的比率;POI数据组中名称带有门标志的POI数据的比率;POI数据组的类别分值,所述类别分值是指将所述POI数据组中类别相同的POI数据聚合成一个数据组,包含POI数据最多的数据组的类别对应的预置分值,所述预置分值是根据预置的所述类别出现连锁品牌机构的先验概率得到,所述先验概率等于N/M,其中M为所述训练数据中标记为连锁品牌词的名称主干所对应的POI数据的数量,N为所述M个POI数据中与所述包含POI数据最多的数据组的类别相同的POI数据的数量。
5.一种连锁品牌词词库和类别词词库建立方法,其特征在于,包括:
从用户查询日志中,获取不同用户在同一城市通过相同的查询词查询得到的POI数据,将获取到的POI数据聚合成一个POI数据组,所述POI数据组与所述查询词对应;
从各个POI数据组中提取所述POI数据组的识别特征;
从所有POI数据组中抽取出查询词已被标记为连锁品牌词、类别词和普通词的POI数据组作为训练数据,基于所述训练数据的识别特征进行识别器的训练;
利用训练后的识别器对所有POI数据组对应的查询词中未识别的查询词进行识别,识别出是连锁品牌词和类别词的查询词;
将所述是连锁品牌词的查询词存储在预置的连锁品牌词词库中,以及将所述是类别词的查询词存储在预置的类别词词库中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于高德软件有限公司,未经高德软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310439450.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种兴趣点父子关系的建立方法及装置
- 下一篇:网页数据采集方法及装置