[发明专利]商户名称解析方法和装置无效
申请号: | 200810105993.3 | 申请日: | 2008-05-07 |
公开(公告)号: | CN101576874A | 公开(公告)日: | 2009-11-11 |
发明(设计)人: | 周利民;段剑波;王思锋;张步峰 | 申请(专利权)人: | 爱帮聚信(北京)信息技术有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京同立钧成知识产权代理有限公司 | 代理人: | 吴新银 |
地址: | 100083北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 商户 名称 解析 方法 装置 | ||
1、一种商户名称解析方法,其特征在于包括:
根据商户词典对获取到的商户名称进行分词;
根据分词结果判断所述商户名称是属于单结构还是双结构;
根据上述判断的结果对所述商户名称进行单结构解析或双结构解析。
2、根据权利要求1所述的商户名称解析方法,其特征在于,所述商户词典包括:商户主干词典、商户属性词典、热点商户区域地址词典、商户组织形式词典、商户组织特征词词典、基本词词典和组合词词典。
3、根据权利要求1所述的商户名称解析方法,其特征在于,对所述商户名称进行单结构解析具体为:
解析商户名称的行政区划,所述行政区划为省、市、乡三级行政区划;
根据商户主干词典获取商户主干;
根据商户属性词典获取商户属性;
根据商户组织形式词典获取商户组织形式;
将商户名称中无法识别的部分放入商户名称补充。
4、根据权利要求3所述的商户名称解析方法,其特征在于,所述根据商户主干词典获取商户主干具体为:
根据商户主干词典通过最长匹配原则获取商户主干和通过最短匹配原则获取最短商户主干,遇到商户属性词或商户组织形式词后停止匹配。
5、根据权利要求1所述的商户名称解析方法,其特征在于,所述对所述商户名称进行双结构解析具体为:
解析商户名称的行政区划,所述行政区划为省、市、乡三级行政区划;
根据商户主干词典获取商户主干;
根据商户属性词典获取商户属性;
根据商户组织形式词典获取商户组织形式;
根据商户组织特征词词典和商户组织形式词典,获取商户组织的附属机构的前缀修饰语和商户组织的附属机构;
将商户名称中无法识别的部分放入商户名称补充。
6、根据权利要求1-5任一所述的商户名称解析方法,其特征在于,所述商户主干词典的构建过程为:
提取采集的商户数据中满足根-分支模式的数据,将根部分加入商户主干词典,将分支部分加入热点商户区域地址词典;
删除商户主干词典中频率为1的商户主干;
对商户主干词典中的商户主干按照名称相似度进行聚类;
去除商户主干的聚类结果中的噪音;
提取去除噪音后的聚类结果中的商户主干;
删除商户主干词典中小于三个汉字的歧义商户主干。
7、根据权利要求1-5任一所述的商户名称解析方法,其特征在于,所述商户属性词典的构建过程为:
根据获取的商户属性词种子构造商户名称解析器;
通过利用所述商户名称解析器解析所述采集的商户数据得到新的商户属性词;
删除新的商户属性词中出现频率不大于10的商户属性词;
若剩余的商户属性词可被加入商户属性词典,则将剩余的商户属性词加入商户属性词典,并将所述剩余的商户属性词加入所述获取的商户属性词种子,并重新根据获取的商户属性词种子构造商户名称解析器;
若剩余的商户属性词不可被加入商户属性词典,则结束操作。
8、根据权利要求1-5任一所述的商户名称解析方法,其特征在于,所述商户组织特征词词典的构建过程为:
降序排列商户属性词典中商户属性词的最后一个汉字的概率分布;
获取其中的组织特征词,并加入商户组织特征词词典。
9、一种商户名称解析装置,其特征在于包括:
分割模块,用于根据商户词典对获取到的商户名称进行分词;
识别模块,用于根据分词结果判断所述商户名称是属于单结构还是双结构;
解析模块,用于根据上述判断的结果对所述商户名称进行单结构解析或双结构解析。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于爱帮聚信(北京)信息技术有限公司,未经爱帮聚信(北京)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810105993.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种垃圾焚烧炉余热回用装置
- 下一篇:一种机械阀