[发明专利]带有易混淆音识别的拼音检查系统和方法有效
申请号: | 200710149483.1 | 申请日: | 2007-09-13 |
公开(公告)号: | CN101388012A | 公开(公告)日: | 2009-03-18 |
发明(设计)人: | 孙海涛;施行向 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海开祺知识产权代理有限公司 | 代理人: | 费开逵 |
地址: | 英属开曼群岛大开曼*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 带有 混淆 识别 拼音 检查 系统 方法 | ||
技术领域
本发明涉及一种拼音检查技术,特别是涉及一种带有易混淆音识别的拼 音检查技术。
背景技术
随着科学技术的飞速发展,尤其是计算机逐渐步入社会的各个角落,并 且广泛地使用计算机已成为现代杜会发展的必然趋势。然而,由于计算机的 发明和主要应用都是在西方,因此,在中国推广使用计算机必然会产生一些 障碍,而其中最主要的为语言文字的障碍。由于计算机一般都以英文字母进 行显示和操作,所以对大部分中国人来说,用英文熟练的操作计算机是非常 困难的。因此,计算机在中国的使用和普及受到了方块字这一瓶颈口的限制。
为了排除这一障碍,自70年代以来,我国已设计了许多种输入方案。据 杂志上报道已有七、八百种。其中有形码、音码、形音码、数字码等编码方 案,如五笔字型法(国家专利局专利号为CN85100837A),这些编码输入法有 两个突出的缺点:第一,输入的是编码,而不是“字”,编码与字之间要有一个 转化过程。操作人员必须先学习编码,才能操作,不便于推广普及。第二, 靠编码输入的是单个汉字,单个汉字多数是不具有意义的词,是一种低级的 输入方式。
为了解决上述问题,国家推行了《汉语拼音方案》输入法,如双拼法(国 家专利局专利号为CN87100313A)。因为它输入的是字母,而不是编码,不存 在编码与字之间的转化过程。虽然说它的输入速度可能不如某些编码方案, 但就输入方式来说,它要比编码方案科学。
但《汉语拼音方案》输入法存在着若干缺点,虽然经过十年的实验和推 广,编订了一个正词法,但很不完善,输入电脑时重码率太高,词汇难以定 型。为了解决这一问题,提出了拼写纠错技术。
拼写纠错是一般电脑内处理文字资料的应用软件中不可或缺的一项重要 功能。这些处理文字资料的应用软件除字处理软件(word processor)外,亦包括 数据库(database)及试算表(sreadsheet)等等,藉以减少撰写的文稿或数据库中 文字资料中的输入错误。
拼写纠错在搜索引擎中有相当应用,主要用于纠正输入错误从而引导用 户正确查询,目前实现的主要技术都是基于拼音纠错,如baidu(百度)上, 输入“乒裹”,baidu查询页面会提示“您要找的是不是:苹果”。
拼写纠错的另一个应用在拼音的输入法中,当用户输入一个不存在的拼 音时,能推荐一些可能的词。
但是,上述拼写纠错技术只能推荐有相同发音的词,而没法推荐有易混 淆音的词,如只能实现根据“乒裹(pingguo)”推荐“苹果(pingguo)”,而无 法根据“品郭(pinguo)”推荐“苹果(pingguo)”。由于有大量地区的方言存在, 发音并不那么准确,因此会造成大量易混淆音的存在,如在浙江地区,往往 分不清翘舌音/平舌音,前鼻音/后鼻音。在这种情况下,仍然会造成输入错误, 并不能起到更智能化的作用,没有人性化。
发明内容
本发明的目的在于提供一种带有易混淆音识别的拼音检查系统和方法, 以解决现有技术不能利用发音的相似性来矫正用户中文输入中可能出现的错 误,解决各地区方言与普通话的混淆,进而导致输入容易出错的技术问题。
一种带有易混淆音识别的拼音检查系统,包括文件存储空间和拼音检查 处理单元,而所述文件存储空间包括词库存储单元、汉字拼音存储单元和汉 字混淆音存储单元,所述拼音检查处理单元包括汉字拼音索引处理子单元、 词库拼音索引处理子单元和汉字易混淆音索引处理子单元。
其中,所述系统还包括索引存储空间,所述索引存储空间包括:
汉字拼音索引文件:用以保存根据汉字从汉字拼音存储单元中得到发音 的索引结构;
汉字易混淆音索引文件:用以保存根据拼音在所述汉字混淆音索引处理 单子单元上找到其对应的易混淆拼音的索引结构;
词库拼音索引文件:用以保存根据拼音在词库存储单元上找到所有对应 词的索引结构。
特别地,所述词库存储单元是按照词发音的哈希运算值从小到大或从大 到小有顺序排序;
所述词库拼音索引文件进一步包括:拼音哈希值索引子文件、列表地址 索引子文件,其中,
拼音哈希值索引子文件:用于根据拼音的哈希值从小到大或从大到小有 顺序地保存有每一哈希值在列表地址索引子文件中对应的列表地址;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710149483.1/2.html,转载请声明来源钻瓜专利网。