[发明专利]一种基于hash散列表词典结构的中文分词方法有效

专利信息
申请号: 201310720277.7 申请日: 2013-12-20
公开(公告)号: CN103646018A 公开(公告)日: 2014-03-19
发明(设计)人: 盖荣丽;高菲 申请(专利权)人: 大连大学
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 大连智高专利事务所(特殊普通合伙) 21235 代理人: 胡景波
地址: 116622 辽宁省大连*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 hash 列表 词典 结构 中文 分词 方法
【说明书】:

技术领域

发明涉及中文信息处理技术领域,具体涉及一种基于hash散列表词典结构的中文分词方法。

背景技术

中文分词是中文信息处理中最为基础、最为重要的问题,是汉语文本自动标注、搜索引擎、机器翻译、语音识别等工作中的关键步骤,分词的质量直接影响了结果的精确度。中文和英文分词不一样,中文的词与词之间没有一个形式上的分界符,只能将连续的中文汉字序列按照一定的汉语规范重新组合,但汉语句子构成的复杂性和多变性,使得中文分词一直是中文信息处理的难点。而未登录词的发现和歧义的消解是中文分词要解决的两大难题。现有的比较流行的分词算法有三大类:1)基于机械匹配的分词方法;2)基于理解的分词方法;3)基于统计的分词方法。

目前,占主导地位的是基于机械匹配的分词方法也叫基于字符串匹配的分词方法,它包括正向最大匹配法,逆向最大匹配法,逐词遍历法,设立切分标志法,最佳匹配法。其中正向最大匹配法和逆向最大匹配法因为其切分速度快、简洁、易实现等特点而得到了广泛应用。基于机械匹配的分词方法存在匹配速度慢、交集型和组合型歧义切分问题和缺乏字学习的智能性。基于理解的分词方法又称基于人工智能的分词方法,由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。基于统计的分词方法在实际应用中一般是将其与基于词典的分词方法结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义。

发明内容

本发明的目的在于针对现有技术的缺陷和不足,提供一种具有更高准确率和效率的分词词典结构以及分词方法。

为实现上述目的,本发明采用的技术方案是:

本发明所述的一种基于hash散列表词典结构的中文分词方法,其特征在于:包括以下步骤:

A、对待处理文档进行预处理,将文本以每一句话为单位分为多个处理块,去掉文档中的标点、英文字母等非汉字信息,用分隔符“/”将其替代;

B、对每一个处理块分别进行正向最大匹配扫描切分和逆向最大匹配扫描切分;

C、对每一个处理块的两次扫描结果进行比较,如果两次扫描后的分词结果相同,则输出正向分词结果,如果结果不同,则分别计算正向最大扫描和逆向最大扫描结果的分词个数S、单字字典词数D、非词典词数N和最大词长L;

D、结合以下方法对C中产生的数据进行比较分析后输出正确结果;

D1、四组值完全相等时,选择逆向分词结果;

D2、S、L相等,其他不等时,选择N小的一方为正确结果;

D3、S相等,L不等时,选择D=N=0的一方为正确,如果没有则选择L大的一方;

D4、S、L都不等时,选择S小且L大的一方正确。

作为优选的,所述的正向最大匹配扫描切分流程为:假设分词词典中最长词长度是n,每次从待切分串的开始处截取一个长度为n的字串s,让s同词典中的词条依次相匹配,如果某个词条与其完全匹配,则把s作为一个词从待切分串中切分出去,重复与词典中词条相匹配的过程,直到待切分字符串切分完为止,如果在词典中找不到与s匹配的词条,就从s的尾部减去一个字,用n-1长度的字符串继续与词典中词条匹配,如果匹配成功则切分出一个词,否则再从s尾部减去一个字,重复匹配过程,直到匹配成功。

作为优选的,所述的逆向最大匹配扫描切分的流程为假设分词词典中最长词长度是n,每次从待切分串的末尾处截取一个长度为n的字串s,让s同词典中的词条依次相匹配,如果某个词条与其完全匹配,则把s作为一个词从待切分串中切分出去,重复与词典中词条相匹配的过程,直到待切分字符串切分完为止,如果在词典中找不到与s匹配的词条,就从s的头部减去一个字,用n-1长度的字符串继续与词典中词条匹配,如果匹配成功则切分出一个词,否则再从s头部减去一个字,重复匹配过程,直到匹配成功。

采用上述结构后,本发明有益效果为:通过提出一种更适合双向最大匹配算法的词典结构,提高了分词过程中的匹配效率,又提出匹配后的判断规则,提高正反向扫描后的比较速度,从根本上提高了双向最大匹配算法的效率。

附图说明

为了更清楚地说明本发明的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明方法流程图;

图2为本发明具体实施例图。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连大学,未经大连大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310720277.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top