[发明专利]一种基于中文检索的分词方法及装置无效

申请号：	201210230150.2	申请日：	2012-07-05
公开（公告）号：	CN102929902A	公开（公告）日：	2013-02-13
发明（设计）人：	刘迎春;魏华峰;方筠捷	申请（专利权）人：	江苏新瑞峰信息科技有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	暂无信息	代理人：	暂无信息
地址：	212051 江苏省镇江市润州***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提供了一种基于中文检索的分词方法和装置，能够比较准确地切分中文字串而不丢失其语义，分词结果比较准确，有利于提高查询的准确度，可应用于信息检索领域的自动文摘和自动分类系统。
搜索关键词：	一种基于中文检索分词方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于中文检索的分词方法，其特征是，通过由中央处理器、输入输出设备、寄存器、机器词典、存储器组成的装置对中文字串S=C1C2C3C4…Cn进行分词，包括以下步骤：(1) 中央处理器从输入输出设备读入中文字串S=C1C2C3C4…Cn，放入寄存器中；(2) 从寄存器中取出S中的第一个字C1，在机器词典中匹配查找是否存在以C1为前缀的词，如果有，在存储器中保存为成词标记；(3) 再从S中取出下一个字C2，和机器词典进行匹配，判断是否存在以C1C2为前缀的词；(4) 如果不存在，则将C1从字串S中切分出来，保存在存储器中，一次分词结束；(5) 如果存在，则再判断一下C1C2是否成词，计算以C1C2为前缀的词的个数n；(6) 如果n=0，则一次分词结束；(7) 如果n不为0，则再从S中取出一个字Ci，和词典进行匹配，判断是否存在以C1C2…Ci为前缀的词；(8) 如果存在，则转到(7)；(9) 如果不存在，则将C1C2…Ci‑1从字串S中切分出来，保存在存储器中，一次分词结束；(10)从字串S的字Ci开始继续进行分词，重复上述步骤，直到字串S正向切分结束；(11) 从寄存器中取出S中的最后一个字Cn，在机器词典中匹配查找是否存在以Cn为后缀的词，如果有，在存储器中保存为成词标记；(12) 再从S中取出一个字Cn‑1，和机器词典进行匹配判断是否存在以Cn‑1 Cn为后缀的词；(13) 如果不存在，则将Cn从字串S中切分出来，保存在存储器中，一次分词结束；(14) 如果存在，则再判断一下Cn‑1Cn是否成词，计算以Cn‑1Cn为后缀的词的个数n；(15) 如果n=0，则一次分词结束；(16) 如果n不为0，则再从S中取出一个字Ci，和机器词典进行匹配判断是否存在以Ci…Cn‑1Cn为后缀的词；(17) 如果存在，则转到(16)；(18) 如果不存在，则将Ci+1…Cn‑1Cn从字串S中切分出来，保存在存储器中，一次分词结束；(19) 从字串S的字Ci开始继续进行分词，重复上述步骤，直到字串S逆向切分结束；(20) 将保存在存储器中的分词结果通过输入输出设备输出。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于江苏新瑞峰信息科技有限公司，未经江苏新瑞峰信息科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201210230150.2/，转载请声明来源钻瓜专利网。

上一篇：斯特林机
下一篇：一种提取钨坩埚中被卡蓝宝石晶锭的方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于中文检索的分词方法及装置无效

专利文献下载