[发明专利]一种适用于专业搜索引擎的分词方法在审
申请号: | 201210491416.9 | 申请日: | 2012-11-27 |
公开(公告)号: | CN103838794A | 公开(公告)日: | 2014-06-04 |
发明(设计)人: | 郑世明 | 申请(专利权)人: | 大连灵动科技发展有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 大连东方专利代理有限责任公司 21212 | 代理人: | 曲永祚 |
地址: | 116023 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种适用于专业搜索引擎的分词方法,包括以下步骤:根据专业主词典表和同义词词典表首先建立首字索引视图和首字词条视图;用数组将整个字典的两个视图数据装入内存;循环查找和匹配过程。做为专业搜索引擎其搜索对象通常是专业领域的技术文档,这些文档的特征项都基于专业词典,与通用词典相比专业词典包含的词汇量很少,因此只需匹配专业词条即可,无需像综合搜索引擎那样对句子中所有词条进行全部切分,因此本发明受首字哈希结构的启发,设计了一种可以提高专业分词的效率,避免传统最大匹配分词中频繁查词典的缺陷,以及首字哈希浪费存储空间的弊端的简单实用的分词方法。 | ||
搜索关键词: | 一种 适用于 专业 搜索引擎 分词 方法 | ||
【主权项】:
一种适用于专业搜索引擎的分词方法,其特征在于:包括以下步骤:A、根据专业主词典表和同义词词典表首先建立首字索引视图和首字词条视图;B、初始化时用数组将整个字典的两个视图数据装入内存;C、根据标点进行粗切分,然后从句子中按顺序取出一个汉字在首字索引视图中用二分法进行查找,若未找到则进入下次循环;D、否则转到首字词条视图中分别按其中同的“词条长度”截取句子相应长度的字符串;E、按首字词条视图中的词条顺序取出所有以该字开头的词条名并与相应长度的截取串进行比较,比较次数由首字索引视图中首字词数目决定;若再匹配成功则对相应词条统计计数,如果词条来源于主词典直接给该词计数,如果词条来源于同义词典则应对该词所对应的主词典词计数;同时跳过该词条包含的汉字进入下一次循环;否则直接进入下次循环;F、重复步骤A‑E直到文章结束为止。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连灵动科技发展有限公司,未经大连灵动科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210491416.9/,转载请声明来源钻瓜专利网。