[发明专利]一种基于导航信息检索的中文分词方法有效
申请号: | 201310731944.1 | 申请日: | 2013-12-25 |
公开(公告)号: | CN103678684B | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 李潍希;于航;解威;朱小莹 | 申请(专利权)人: | 沈阳美行科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 沈阳晨创科技专利代理有限责任公司21001 | 代理人: | 任玉龙 |
地址: | 110004 辽宁省沈阳*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 导航 信息 检索 中文 分词 方法 | ||
技术领域
本发明涉及导航领域,特别涉及了一种基于导航信息检索的中文分词方法。
背景技术
目前的导航名称检索所用的字典信息是以单字词作为基础建立,并且字典中只存在单字词相互的一个关联关系,并没有语义解释等信息。根据用户输入的内容切分成单个字顺序进行查找,把结果通过规则排序,最终呈现给用户。这样的检索方式需要相对完整的设施的名称片段,而且无法识别错别字。
发明内容
本发明的目的是为了提高信息检索引擎对语义的理解,充分对提供的结果集进行较好的调整,特提供了一种基于导航信息检索的中文分词方法。
本发明提供了一种基于导航信息检索的中文分词方法,其特征在于:中文分词作为导航检索的基础而设计,中文分词对于搜索引擎来说,最重要的并不是找到所有结果,而是把最符合语义相关的结果优选排在最前面,这也称为相关度排序;中文分词的准确与否,直接影响到对搜索结果的相关度排序;从定性分析来说,搜索引擎的分词算法不同,词库的不同都会影响搜索结果的相关度;
采用统计法和规则理解法,在大量已经分词的文本,利用统计机器学习模型学习词语切分的规律,从而实现对未知文本的切分;将待分析的汉字串与一个机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功,识别出一个词;通过规则对人名、地名和专有名词进行识别处理;
基于地理位置信息特点和以上3个机制的优缺点设计了新型词典的格式,包含了设施分类信息,以及拼音信息等,格式的特点主要是基于4字词为基础的的词典,由于4个字以下成词的比率大约为94.5%,为了简化实现逻辑,基础词典采用4字词典;基于4字词为基础的词典在查找4字以下成词的速度会很快,而且支持双向最大匹配的方法;
分词系统的实现步骤:
加载词典,词典包含机器训练所有成词的导航设施信息内容;
文本编码转换,统一为国标码即GBK编码形式表示文本;
断句处理,就是根据分隔符、回车换行符等语句的分隔标志,把源字符串分隔成多个稍微简单一点的短句;
原子分词,所谓原子,是指该短句中不可分割的最小语素单位;一个汉字、短句前后的开始结束标识字段、全角标点符号、连在一起的数字字母单字节字符等;
逐词遍历匹配法实现成词全匹配;此方法是把原子切分的词按由短到长的顺序,逐个搜索匹配整个词典,直到把所有的词都切分出来为止;
筛选匹配结果生成若干最佳结果,通过最短路径方法,评价每条路
径,生成若干最佳结果;
前后词匹配,这步功能实现主要是根据前后两个词的一个关联度做整个句子的评价;通过计算一个句子的整体的置信度来评价句子切分的好坏,经过筛选出较优的结果;
词性标注,对于“词性标注”这个应用领域来说即对“确定的切词结果”找到背后的各个词的“词性”;
人名、地名和专有名词处理,通过对标注好的短句进行人名、地名和一些专有名词的处理,由于基于导航的地理位置信息的特点,制作特有的专有名词词典,矫正短句当中语义成分;
未登录词处理,由于字典是有限的,在分词的过程中很容易出现一些未登录词,词表里未出现的词,通过对未登录词进行评价,来判断未登录词是否为一个新词,此过程为未登录词的学习过程:学习过程的任务是要完成对地理信息数据中产生新词的抽取和判定;把识别出来的新词补充到分词词典当中;
修正词典,主要通过对未登录词的新词添加和对已有词的属性改善;
最终合并各个短句处理的结果,输出。
优选地,基于导航信息检索的中文分词方法具体包括:
外部输入:用于接收用户的输入,通常作为直接与用户交互的模块,提供多种的输入方式,符合用户的使用习惯,例如:用户语音输入,用户的手写输入等;
提取特征:把用户输入的文本转换成统一的GBK编码规则;
文本分析:对用户的输入,无论是输入的内容,还是输入的行为细节,包括符号的输入、大小写的输入等,又或者还是对输入的关键字多次的输入,被认定为有用特征后,都作为特征会被记录并提取出来;
分词系统处理:对用户的输入语句进行分词和词性标注,可以得到每个词的词性,分类,频率以及拼音属性;对于未登录进行添加以及修正已有词的属性;
语义理解:这个模块会对文本转换的结果,在模式规则库中,进行模式规则的匹配,会生成检索的主要执行步骤;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于沈阳美行科技有限公司,未经沈阳美行科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310731944.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:倒排索引存储方法及其系统
- 下一篇:网页搜索方法及客户端
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置