[发明专利]中文地址分词标注方法有效
申请号: | 201510239133.9 | 申请日: | 2015-05-12 |
公开(公告)号: | CN104933023B | 公开(公告)日: | 2017-09-01 |
发明(设计)人: | 王明兴;贾西贝 | 申请(专利权)人: | 深圳市华傲数据技术有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京酷爱智慧知识产权代理有限公司11514 | 代理人: | 赵永辉 |
地址: | 518057 广东省深圳市南山区高新区中*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 中文 地址 分词 标注 方法 | ||
技术领域
本发明涉及数据处理技术领域,尤其涉及一种中文地址分词标注方法。
背景技术
人们在填写收件人地址、办公地址、家庭住址等地址信息时一般都是将省、市、区、门牌号、住宅小区、房间号等信息写在一起组成地址信息,如“广东深圳南山区高新中一道9号科技园软件大厦713”,这种写法适合人工识别,而当通过机器识别地址的结构化细节信息时首先要做的处理就是分词与标注,将输入的长文本切分成一个一个的词,并对词的属性进行标注,如上例地址信息的分词标注结果可能为:“广东/省深圳/市南山区/区高新中一道/道路9号/路号科技园/片区软件大厦/楼栋713/房间”。中文地址分词标注是地址信息处理的一项基础性工作,其准确程度将直接影响到后续处理的正确性。
现有分词标注技术中应用的比较成熟的是基于统计的方法,例如,隐马尔可夫模型(HMM)的分词标注技术就是一种典型的基于统计模型的分词标注方法。但是,应用通用的分词标注或实体识别技术来进行中文地址分词标注的结果准确率不太高,只有80%左右。因此,亟需一种高准确率的中文地址分词标注方法。
发明内容
本发明的目的在于提供一种中文地址分词标注方法,提高中文地址分词标注的准确率。
为实现上述目的,本发明提供一种中文地址分词标注方法,包括:
步骤11、对挑选出的地址数据进行人工分词标注,以作为训练数据;
步骤12、对于该训练数据或挑选出的地址数据中出现的单个阿拉伯数字字符或英文字母字符以及多个连续阿拉伯数字字符或英文字母字符,以预先唯一指定的单个阿拉伯数字字符或英文字母字符替换;
步骤13、采用分词标签和标注标签分别将该训练数据转换成CRF++工具所需要的格式;
步骤14、定义特征模板;
步骤15、使用CRF++工具分别建立分词模型和标注模型;
步骤16、对于欲分词标注的地址中出现的单个阿拉伯数字字符或英文字母字符以及多个连续阿拉伯数字字符或英文字母字符,以该预先唯一指定的单个阿拉伯数字字符或英文字母字符替换,同时保存替换前的阿拉伯数字字符或英文字母字符;
步骤17、然后使用CRF++工具对欲分词标注的地址进行分词标注;
步骤18、在分词标注结果中还原替换前的阿拉伯数字字符或英文字母字符。
其中,所述分词标签包括表示字在词首的标签,表示字在词中的标签,表示字在词尾的标签,以及表示单个字成词的标签。
其中,所述标注标签包括省、市、区、街道、社区、道路、路号、片区、楼栋及房间。
其中,步骤17包括用该分词模型和标注模型分别获取每个字的分词标签和标注标签以及解析每个字的分词标签和标注标签。
其中,解析每个字的分词标签和标注标签的过程包括:
a)首先建立一个字的缓存区,初始为空,并从头开始按顺序处理输入地址的每个字;
b)将字存入缓存区,然后判断该字的分词标签;
c)如果该字的分词标签表示字在词首或词中且非最后一个字,则继续处理下一个字;
d)否则取出缓存区所有的字并组成一个词,且该词的标注属性为缓存区中字的标注标签,将结果输出,清空缓存区。
其中,所述预先唯一指定的单个阿拉伯数字字符或英文字母字符为1。
其中,所述步骤15中使用CRF++工具提供的crf_learn命令训练分词模型和标注模型。
其中,训练分词模型和标注模型的过程迭代100步。
综上所述,本发明的中文地址分词标注方法的准确率高。
附图说明
图1为本发明中文地址分词标注方法一较佳实施例的流程图。
具体实施方式
下面结合附图,通过对本发明的具体实施方式详细描述,将使本发明的技术方案及其有益效果显而易见。
本发明采用基于条件随机场模型的分词框架,条件随机场相关技术采用开源的CRF++工具。CRF++是著名的条件随机场开源工具,也是目前综合性能最佳的CRF工具。
对应于地址的标注标签,本发明定义地址如下概念:
省:由“国家地名地址数据规范”规定的一级行政区域,包含:省、直辖市、自治区、特别行政区;
市:由“国家地名地址数据规范”规定的二级行政区域,包含:地级市、地区、自治州、盟;
区:由“国家地名地址数据规范”规定的三级行政区域,包含:市辖区、县级市、县、旗、特区、林区;
街道:由“国家地名地址数据规范”规定的四级行政区域,包含:区公所、镇、乡、苏木、街道;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市华傲数据技术有限公司,未经深圳市华傲数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510239133.9/2.html,转载请声明来源钻瓜专利网。