[发明专利]中文字串的词汇切分系统及其方法有效

专利信息
申请号: 200910132699.6 申请日: 2009-04-07
公开(公告)号: CN101859294A 公开(公告)日: 2010-10-13
发明(设计)人: 邱全成;陈领 申请(专利权)人: 英业达股份有限公司
主分类号: G06F17/27 分类号: G06F17/27;G06F17/30
代理公司: 北京市浩天知识产权代理事务所 11276 代理人: 许志勇
地址: 中国台*** 国省代码: 中国台湾;71
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 中文 字串 词汇 切分 系统 及其 方法
【说明书】:

技术领域

发明涉及一种中文字串的词汇切分系统及其方法,特别是指一种产生有效切分字词的中文字串的词汇切分系统及其方法。

背景技术

中文分词(Chinese Word Segmentation,CWS)是将一中文词句切分为数个切分字词,其应用于信息检索、人机互交、信息提取、文本挖掘、中外文翻译、中文校对与自动摘要等。以信息检索为例,搜寻引擎预先将检索资料切分为多个切分字词,并依照这些切分词建立索引;搜寻引擎在接收使用者输入的关键字句时,同样将关键字句切分为一或多个切分字词,将其与索引进行比对,以找出与关键字句相关的检索资料。

但中文不同于英文,字与字之间没有空格,所以亦无法按空格提取字串并建立索引,故分词遂成为达到有效信息检索的关键技术。以“我正面临一项挑战”为例,现行采用的交叉二元切分法将切分出7个切分字词,其分别为“我正”、“正面”、“面临”、“临一”、“一项”、“项考”与“考验”;此交叉二元切分法简单快速,但会产生大量无意义的切分字词,导致索引其储存空间增加而造成负担,此外,此种机械切分虽提高关键字句的命中率,但因未考虑字句原意,反而降低了检索结果的相关性。

综上所述,可知现有技术在切分中文字串的过程中,一直存在着产生大量无效切分字词的问题,因此有必要提出改进的技术手段,来解决此一问题。

发明内容

有鉴于现有技术于切分中文字串的过程中,一直存在着产生大量无效切分字词的问题,本发明遂提供一种中文字串的词汇切分系统及其方法,其中:

本发明所提供的中文字串的词汇切分系统,其包含一词汇库、一撷取模块与一查找模块。其中,词汇库包含有复数个词汇;撷取模块用于自接收的一中文字串撷取其第一字至第二字为第一组合词汇后,依据该第一组合词汇其后续查找之有无,选择撷取该第一组合词汇与其下一字为第一组合累加词汇,或撷取该第一组合词汇的尾字与其下一字为第二组合词汇;查找模块用于在词汇库依序进行该第一组合词汇的匹配查找,以及该第一组合累加词汇或该第二组合词汇的匹配查找;其中,当查找模块确认词汇库有该第一组合累加词汇时,撷取模块选择撷取该第一组合累加词汇与其下一字为次第一组合累加词汇,反之,则撷取该第一组合累加词汇的尾字与其下一字为该第二组合词汇,并由查找模块进行该次第一组合累加词汇或该第二组合词汇的匹配查找,依此类推至任一组合词汇或组合累加词汇包含有该中文字串的最终字为止。

本发明所提供的中文字串的词汇切分方法,预建有包含复数个词汇的一词汇库,该方法首先自一中文字串撷取其第一字至第二字为第一组合词汇;接着,以该第一组合词汇至词汇库进行匹配查找,当确认词汇库有该第一组合词汇时,撷取该第一组合词汇与其下一字为第一组合累加词汇,反之则撷取该第一组合词汇的尾字与其下一字为第二组合词汇,并再次在词汇库查找与该第二组合词汇符合的一词汇;以该第一组合累加词汇在词汇库进行匹配查找,当确认词汇库有该第一组合累加词汇时,撷取该第一组合累加词汇与其下一字为次第一组合累加词汇,反之则撷取该第一组合累加词汇的尾字与其下一字为该第二组合词汇,并再次以该第二组合词汇在词汇库进行匹配查找;依此类推,直至任一组合词汇或组合累加词汇包含有该中文字串的最终字为止。

本发明所提供的系统与方法如上,与现有技术之间的差异在于本发明在确认词汇库有自该中文字串撷取的组合词汇时,进一步撷取其与下一字作为组合累加词汇并继续查找,反之则撷取该组合词汇的尾字与其下一字进行查找的技术手段,通过此技术手段,本发明可产生有效的组合词汇或组合累加词汇,在兼顾切分速度与字句原意之下,达到降低系统负担的技术功效。

附图说明

图1为本发明的中文字串切分系统其方框示意图;

图2为本发明的中文字串切分方法其步骤流程图;

图3为本发明的增添识别模块与设定模块的中文字串切分系统其方框示意图;

图4为本发明的增添识别步骤与设定步骤的中文字串切分方法其步骤流程图;

图5为本发明的中文字串其长词优先的切分结果的示意图。

具体实施方式

以下将配合附图及实施例来详细说明本发明的实施方式,借此对本发明如何应用技术手段来解决技术问题并达到技术功效的实现过程能充分理解并据以实施。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于英业达股份有限公司,未经英业达股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200910132699.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top