[发明专利]一种切分索引分词的方法及系统有效
申请号: | 200710123051.3 | 申请日: | 2007-06-22 |
公开(公告)号: | CN101071420A | 公开(公告)日: | 2007-11-14 |
发明(设计)人: | 王启明 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 | 代理人: | 逯长明 |
地址: | 518044广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 切分 索引 分词 方法 系统 | ||
技术领域
本发明涉及信息索引领域,特别涉及一种切分索引分词的方法及系统。
背景技术
现有信息检索系统已经日益普及,大到网络搜索引擎,小到特定应用信息检索系统。当需要进行汉字信息的处理时,信息检索系统就会遇到如何分词的问题。
目前的分词算法有很多种,其中n元语法分词是一种不需要词典的机械分词方法,实现容易。但是该分词方法冗余度大,不能解决单字分词问题。
二元分词方法是将句子中任意出现的两个紧邻的字都分出来,建立倒排索引。例如:句子“从上述实现步骤来看”会分出“从上、上述、述实、实现、现步、步骤、骤来、来看”等几个词。从上述分出来的分词可以看出,如“述实”、“现步”等分词并没有实际意义。而且该方法也不能解决单字分词的问题,不能对英文词进行划分。
最大匹配分词方法是一种按照最长词优先的原则匹配分词的方法。例如:句子“从上述实现步骤来看”可能被分为“从、上述、实现步骤、来看”等几个词。这种方法分出的词比较少,但不一定是最短的,而且也不一定准确。由于这种分词方法没有一定量的冗余词,可能会导致查全率下降,在某些应用场合体验不好。
基于统计或语义分析的分词方法,需要解决歧义消解问题。这种分词方法得到的结果不一定是全面的,但比较准确。但由于这种分词方法实现起来比较麻烦,而且复杂的分析过程必然会从一定程度影响分词效率,这种分词方法不适用于小型特定应用信息检索系统。
发明内容
本发明的目的是提供一种切分索引分词的方法,该方法能够同时解决分词准确、一定量的冗余词以及单字分词的问题,增强用户体验。
本发明的目的还提供一种切分索引分词的系统,该系统能够同时解决分词准确、一定量的冗余词以及单字分词的问题,增强用户体验。
为解决上述技术问题,本发明实施例提供一种切分索引分词的方法,包括以下步骤:
读取字符流;
识别所述字符流,确定汉字、英文字符或数字以及不可识别字符;
将已经确定的汉字、英文字符或数字与预先建立的词典树比较,确定匹配的分词;
将所述英文字符或数字进行ASCII码Wild match(通用模糊匹配),确定英文字符串或者数字串的分词;
将上述匹配的分词和所述英文字符串或者数字串的分词以及不可识别字符,按所述字符流顺序进行排序;
按所述排序后的分词顺序以及所述每个分词和上述不可识别字符的长度划分所述字符流。
优选地,所述词典树为预先建立的trie字符树数据结构。
优选地,所述词典树为预先建立的二进制流词典结构。
优选地,所述识别所述字符流后,将所述字符流存储在内部字符缓冲区。
优选地,在所述字符流存储在内部字符缓冲区之前,将所述字符流进行统一字符的处理。
优选地,所述确定汉字、英文字符或数字以及不可识别字符后,去掉所述字符流中的标点符号。
优选地,所述词典树在预先建立时去除无意义的单字。
优选地,按所述排序后的分词顺序以及所述每个分词和上述不可识别字符的长度划分所述字符流后进一步包括:
定期统计接收到的关键词的频率;
将频率高于预定数值的关键词添加到所述词典树中。
本发明实施例提供一种切分索引分词的系统,该系统包括:
读取单元,用于读取字符流;
字符流识别单元,用于将所述读取单元读取的字符流进行识别,确定汉字、英文字符或数字以及不可识别字符;
词典树单元,预先存储词组和短语的词典树的数据结构单元;
比较单元,用于将所述字符流识别单元确定的汉字、英文字符或数字与所述词典树单元预先建立的词典树比较,确定匹配的分词;
通用模糊匹配单元,用于将所述比较单元比较后的英文字符或数字进行ASCII码通用模糊匹配,确定英文字符串或者数字串的分词;
分词管理单元,将所述比较单元和所述通用模糊匹配单元确定的分词以及所述字符流识别单元确定的不可识别字符按所述读取单元读取的字符流顺序进行排序,并记录每个上述分词和上述不可识别字符的长度;
分词划分单元,将所述读取单元读取的字符流,按照所述分词管理单元记录的分词顺序以及所述每个分词和上述不可识别字符的长度进行划分。
本发明实施例还提供一种切分索引分词的系统,该系统包括:
读取单元,用于读取字符流;
字符流识别单元,用于将所述读取单元读取的字符流进行识别,确定汉字、英文字符或数字以及不可识别字符;
内部字符缓冲区单元,用于存储所述字符流识别单元识别的字符流;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710123051.3/2.html,转载请声明来源钻瓜专利网。