[发明专利]一种适用于专业搜索引擎的分词方法在审

申请号：	201210491416.9	申请日：	2012-11-27
公开（公告）号：	CN103838794A	公开（公告）日：	2014-06-04
发明（设计）人：	郑世明	申请（专利权）人：	大连灵动科技发展有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	大连东方专利代理有限责任公司 21212	代理人：	曲永祚
地址：	116023 辽宁***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种适用于专业搜索引擎分词方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种中文的自动分词技术，特别是一种适用于专业搜索引擎的分词方法。

背景技术

在国内自80年代以来，已陆续开发出一些分词系统，使用的分词方法也有多种。但归纳起来不外乎两类：一类是理解式分词法，即利用汉语的语法知识和语义知识以及心理学知识试图模仿人类的阅读过程来进行分词。这种分词需要建立分词数据库、知识库和推理机，主要包括专家系统分词法、基于语法和规则的分词法、基于神经网络的分词法等；另一类是机械式分词法，这种分词法一般以分词词典为依据，通过文档中的汉字串和词表中的词逐一匹配来完成词的切分。其中分词词典中不涉及太多的词法、语义、句法知识等关于语言自身的信息，主要是个词表。词典中词条的数目、词条的选择直接影响到最后的分词效果。它主要包括正向、逆向最大匹配法、最佳匹配法、逐词遍历法、词频统计法等。相比而言，第一类分词方案的算法复杂度高，其有效性于可行性尚需在实际工作中得到进一步地验证。因为汉语毕竟是缺乏词的标志和严格的构词规则。语言界现有的词法、句法及组合规则仍然是十分笼统的和复杂的，能否有效的、系统地转换成为计算机采用的形式恐怕难以定论。因此这种分词方法仅是处于研究阶段，距离实用化还有很大差距，一般不宜采用。第二类分词方法实现简单，比起第一类来较具体、实用，而且也可以达到较高的准确度。

搜索引擎中常用的分词技术是一种基于分词词典的机械分词法，即正逆向最大匹配法。它不能根据文档上下文的语义特征来切分词语，对词典的依赖性较大，所以在实际使用时，难免会造成一些分词错误。为了提高系统分词的准确度，在搜索引擎的实际应用中通常采用正向最大匹配法和逆向最大匹配法相结合的分词方案。先根据标点对文档进行粗切分，把文档分解成若干个子段，然后再对这些子段用正向最大匹配法和逆向最大匹配法进行扫描切分。如果两种分词方法得到的匹配结果相同，则认为分词正确，否则，按同时包含两部分的最小长度处理。

目前搜索引擎中用到的正逆向最大匹配相结合的分词算法和首字哈希的词典组织结构都是建立在通用词典的基础上的，它要求对词条全部切分直到单字为止。但做为专业搜索引擎其搜索对象通常是专业领域的技术文档，这些文档的特征项都基于专业词典，与通用词典相比专业词典包含的词汇量很少，因此只需匹配专业词条即可，无需像综合搜索引擎那样对句子中所有词条进行全部切分。

发明内容

为解决现有技术存在的上述问题，本发明受首字哈希结构的启发，设计了一种可以提高专业分词的效率，避免传统最大匹配分词中频繁查词典的缺陷，以及首字哈希浪费存储空间的弊端的简单实用的分词方法。

为了实现上述目的，本发明的技术方案如下：一种适用于专业搜索引擎的分词方法：包括以下步骤：

A、根据专业主词典表和同义词词典表首先建立首字索引视图和首字词条视图；

B、初始化时用数组将整个字典的两个视图数据装入内存；

C、根据标点进行粗切分，然后从句子中按顺序取出一个汉字在首字索引视图中用二分法进行查找，若未找到则进入下次循环；

D、否则转到首字词条视图中分别按其中同的“词条长度”截取句子相应长度的字符串；

E、按首字词条视图中的词条顺序取出所有以该字开头的词条名并与相应长度的截取串进行比较，比较次数由首字索引视图中首字词数目决定；

若再匹配成功则对相应词条统计计数，如果词条来源于主词典直接给该词计数，如果词条来源于同义词典则应对该词所对应的主词典词计数；

同时跳过该词条包含的汉字进入下一次循环；否则直接进入下次循环；

F、重复步骤A-E直到文章结束为止。

与现有技术相比，本发明具有以下有益效果：

1.保持了传统最大匹配优先的特点，同时也适合于中英文混合词条(如“甲A”，“Java实例”等)的分词统计。

2.改变传统最大匹配中截取字串匹配词典词条的做法，而采用了词典词条匹配相应长度截取字串的匹配方法。保证了所有的匹配都是有效匹配，避免了传统最大匹配法顺序查字典中大量的无效匹配判断，提高了分词的效率。

3.根据专业词典建立首字索引，避免了传统首字哈希索引方法在专业搜索引擎中浪费存储空间的弊端。

4.方法简单易于实现。无需建立新的索引结构表，仅利用现有的库表结构即可实现，降低了建立索引的复杂度，能有效的适用于专业搜索引擎的使用。

附图说明

本发明共有附图1张，其中：

图1是本发明中适合专业搜索引擎的分词法流结构示意图。

具体实施方式

下面结合附图对本发明进行进一步地描述。本发明的工作流程如图1，根据专业主词典表和同义词词典表首先建立首字索引视图和首字词条视图两个视图。然后初始化时用数组将整个字典的两个视图数据装入内存。在分词时先根据标点进行粗切分，接着从句子中按顺序取出一个汉字在首字索引视图的“词条首字”中用二分法进行查找，若未找到则进入下次循环，否则转到首字词条视图中分别按首字词条视图中不同的“词条长度”截取句子相应长度的字符串，然后按首字词条视图中的词条顺序取出所有以该字开头的词条名并与相应长度的截取串进行比较(比较次数由首字索引视图中“首字词数目”决定)，若再匹配成功则对相应词条统计计数(如果词条来源于主词典直接给该词计数，如果词条来源于同义词典则应对该词所对应的主词典词计数)，同时跳过该词条包含的汉字进入下一次循环。否则直接进入下次循环。如此反复匹配直到文章结束为止。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于大连灵动科技发展有限公司，未经大连灵动科技发展有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201210491416.9/2.html，转载请声明来源钻瓜专利网。

上一篇：一种智能天线异常性能评估方法及装置
下一篇：一种浏览器客户端与IM客户端之间通信的方法和系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种适用于专业搜索引擎的分词方法在审

专利文献下载