[发明专利]一种基于导航信息检索的中文分词方法有效

申请号：	201310731944.1	申请日：	2013-12-25
公开（公告）号：	CN103678684B	公开（公告）日：	2017-05-31
发明（设计）人：	李潍希;于航;解威;朱小莹	申请（专利权）人：	沈阳美行科技有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	沈阳晨创科技专利代理有限责任公司21001	代理人：	任玉龙
地址：	110004 辽宁省沈阳***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于导航信息检索中文分词方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及导航领域，特别涉及了一种基于导航信息检索的中文分词方法。

背景技术

目前的导航名称检索所用的字典信息是以单字词作为基础建立，并且字典中只存在单字词相互的一个关联关系，并没有语义解释等信息。根据用户输入的内容切分成单个字顺序进行查找，把结果通过规则排序，最终呈现给用户。这样的检索方式需要相对完整的设施的名称片段，而且无法识别错别字。

发明内容

本发明的目的是为了提高信息检索引擎对语义的理解，充分对提供的结果集进行较好的调整，特提供了一种基于导航信息检索的中文分词方法。

本发明提供了一种基于导航信息检索的中文分词方法，其特征在于：中文分词作为导航检索的基础而设计，中文分词对于搜索引擎来说，最重要的并不是找到所有结果，而是把最符合语义相关的结果优选排在最前面，这也称为相关度排序；中文分词的准确与否，直接影响到对搜索结果的相关度排序；从定性分析来说，搜索引擎的分词算法不同，词库的不同都会影响搜索结果的相关度；

采用统计法和规则理解法，在大量已经分词的文本，利用统计机器学习模型学习词语切分的规律，从而实现对未知文本的切分；将待分析的汉字串与一个机器词典中的词条进行配，若在词典中找到某个字符串，则匹配成功，识别出一个词；通过规则对人名、地名和专有名词进行识别处理；

基于地理位置信息特点和以上3个机制的优缺点设计了新型词典的格式，包含了设施分类信息，以及拼音信息等，格式的特点主要是基于4字词为基础的的词典，由于4个字以下成词的比率大约为94.5％，为了简化实现逻辑，基础词典采用4字词典；基于4字词为基础的词典在查找4字以下成词的速度会很快，而且支持双向最大匹配的方法；

分词系统的实现步骤：

加载词典，词典包含机器训练所有成词的导航设施信息内容；

文本编码转换，统一为国标码即GBK编码形式表示文本；

断句处理，就是根据分隔符、回车换行符等语句的分隔标志，把源字符串分隔成多个稍微简单一点的短句；

原子分词，所谓原子，是指该短句中不可分割的最小语素单位；一个汉字、短句前后的开始结束标识字段、全角标点符号、连在一起的数字字母单字节字符等；

逐词遍历匹配法实现成词全匹配；此方法是把原子切分的词按由短到长的顺序，逐个搜索匹配整个词典，直到把所有的词都切分出来为止；

筛选匹配结果生成若干最佳结果，通过最短路径方法，评价每条路

径，生成若干最佳结果；

前后词匹配，这步功能实现主要是根据前后两个词的一个关联度做整个句子的评价；通过计算一个句子的整体的置信度来评价句子切分的好坏，经过筛选出较优的结果；

词性标注，对于“词性标注”这个应用领域来说即对“确定的切词结果”找到背后的各个词的“词性”；

人名、地名和专有名词处理，通过对标注好的短句进行人名、地名和一些专有名词的处理，由于基于导航的地理位置信息的特点，制作特有的专有名词词典，矫正短句当中语义成分；

未登录词处理，由于字典是有限的，在分词的过程中很容易出现一些未登录词，词表里未出现的词，通过对未登录词进行评价，来判断未登录词是否为一个新词，此过程为未登录词的学习过程：学习过程的任务是要完成对地理信息数据中产生新词的抽取和判定；把识别出来的新词补充到分词词典当中；