[发明专利]一种基于导航信息检索的中文分词方法有效

专利信息
申请号: 201310731944.1 申请日: 2013-12-25
公开(公告)号: CN103678684B 公开(公告)日: 2017-05-31
发明(设计)人: 李潍希;于航;解威;朱小莹 申请(专利权)人: 沈阳美行科技有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 沈阳晨创科技专利代理有限责任公司21001 代理人: 任玉龙
地址: 110004 辽宁省沈阳*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要: 一种基于导航信息检索的中文分词方法,其特征在于分词系统的实现步骤加载词典,文本编码转换;断句处理,把源字符串分隔成多个稍微简单一点的短句;原子分词,是指该短句中不可分割的最小语素单位;逐词遍历匹配法实现成词全匹配;筛选匹配结果生成若干最佳结果;人名、地名和专有名词处理;修正词典,主要通过对未登录词的新词添加和对已有词的属性改善;最终合并各个短句处理的结果,输出。本发明的优点通过中文分词技术可以把用户输入的内容做成词处理,可以优化速度,并且以词为基础可以进行错别字矫正,可以提供更符合的结果。中文分词技术可以提高信息检索引擎对语义的理解,充分对提供的结果集进行较好的调整。
搜索关键词: 一种 基于 导航 信息 检索 中文 分词 方法
【主权项】:
一种基于导航信息检索的中文分词方法,其特征在于:分词系统的实现步骤:加载词典,词典包含机器训练所有成词的导航设施信息内容;文本编码转换,统一为国标码即GBK编码形式表示文本;断句处理,根据分隔标志把源字符串分隔成多个简单短句,所述分隔标志包括分隔符、回车换行符;原子分词,所谓原子,是指该短句中不可分割的最小语素单位;一个汉字、短句前后的开始结束标识字段、全角标点符号、连在一起的数字字母单字节字符;逐词遍历匹配法实现成词全匹配;此方法是把原子切分的词按由短到长的顺序,逐个搜索匹配整个词典,直到把所有的词都切分出来为止;筛选匹配结果生成若干最佳结果,通过最短路径方法,评价每条路径,生成若干最佳结果;前后词匹配,这步功能实现主要是根据前后两个词的一个关联度做整个句子的评价;通过计算一个句子的整体的置信度来评价句子切分的好坏,经过筛选出较优的结果;词性标注,对于“词性标注”这个应用领域来说即对“确定的切词结果”找到背后的各个词的“词性”;人名、地名和专有名词处理,通过对标注好的短句进行人名、地名和一些专有名词的处理,由于基于导航的地理位置信息的特点,制作特有的专有名词词典,矫正短句当中语义成分;未登录词处理,由于字典是有限的,在分词的过程中很容易出现一些未登录词,词表里未出现的词,通过对未登录词进行评价,来判断未登录词是否为一个新词,此过程为未登录词的学习过程:学习过程的任务是要完成对地理信息数据中产生新词的抽取和判定;把识别出来的新词补充到分词词典当中;修正词典,主要通过对未登录词的新词添加和对已有词的属性改善;最终合并各个短句处理的结果,输出;所述的基于导航信息检索的中文分词方法包括:外部输入:用于接收用户的输入,通常作为直接与用户交互的模块,提供多种的输入方式,符合用户的使用习惯,包括:用户语音输入,用户的手写输入;提取特征:把用户输入的文本转换成统一的GBK编码规则;文本分析:对用户的输入,无论是输入的内容,还是输入的行为细节,包括符号的输入、大小写的输入,又或者还是对输入的关键字多次的输入,被认定为有用特征后,都作为特征会被记录并提取出来;分词系统处理:对用户的输入语句进行分词和词性标注,可以得到每个词的词性,分类,频率以及拼音属性;对于未登录进行添加以及修正已有词的属性;语义理解:这个模块会对文本转换的结果,在模式规则库中,进行模式规则的匹配,会生成检索的主要执行步骤;检索步骤生成:将会执行完整的检索步骤,检索步骤会对语义理解的步骤,进行编译优化处理,会综合考虑性能、内存要素后,生成一组合理的检索步骤,加上预处理的流程、步骤之间衔接的流程和处理后的流程,就会最终产生一个检索步骤的清单;与此同时,还会完成初始化环境变量和开辟相关的内存空间,为检索的步骤处理做准备;检索步骤处理:此过程会根据请求的内容,按照检索的业务逻辑,遍历检索的数据库内容,取得满足查询条件的检索结果;当检索步骤清单定义的步骤数大于零,检索步骤处理就会被调用多次;每一步的结束,都会保存检索的上下文;检索结果处理:检索结果处理会将检索的结果进行分类、排序、合并操作,这一步的结果就可以转给外置输出模块,用于向外置设备进行输出;误差反馈处理:对经过一次检索步骤生成、检索步骤处理后,检索结果不存在,智能检索系统会判定对用户输入的理解是存在误差的,需要修改查询条件,误差反馈处理会重新生成检索步骤,进行新的检索,当满足结束的条件后,才会停止检索;自适应学习:这是一个学习模块,会根据检索的结果和用户的输入,进行自适应的学习,来达到不断适应用户使用习惯的目的;根据用户的多次检索,会不断修正系统默认的规则,会影响检索的结果和检索结果的排序;外置输出:就是用户接口,提供给用户检索的结果,对用户请求的检索结果,进行应答。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于沈阳美行科技有限公司,未经沈阳美行科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201310731944.1/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top