[发明专利]基于汉字拆分的智能语句级汉字输入系统无效

专利信息
申请号: 201010113276.2 申请日: 2010-01-30
公开(公告)号: CN101833376A 公开(公告)日: 2010-09-15
发明(设计)人: 王道平 申请(专利权)人: 王道平
主分类号: G06F3/023 分类号: G06F3/023;G06F3/041;G06F17/27;G06F17/28;G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 430065 湖北省*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 汉字 拆分 智能 语句 汉字输入 系统
【说明书】:

技术领域

发明涉及中文信息处理领域,特别适用于汉字键盘输入、汉字手写(笔写、指书等)输入、信息技术汉语(汉字)教学、信息化汉字检索、汉语分词、语音输入、机器翻译及网络智能搜索等领域。

背景技术

在汉字键盘输入方面,诸如“优化五笔字型”的字形输入速度快的最大优点已变得并不明显,难学难用性也依旧,反而是拼音输入不仅保持了易学易用的最大优点,在输入速度上也大有改观。特别是搜狗、谷歌、QQ等拼音输入法的面世,可以说标志着汉字输入进入了比较成熟的拼音语句级输入时代,输入速度直逼字形输入法。但即使是在这类智能化的输入法中,语句转换错误的现象也常会发生,简拼输入时就更为明显。其原因在于,目前自动分词的准确度尚达不到100%,全拼难以达到,简拼就更达不到。因此它们无法根本解决语句输入(特别是短语输入)“回头看”的问题,也难以缩短平均码长。正是由于这些原因,数字键盘的汉字输入效果就更不理想,速度和效率都很低下。

在汉字手写(笔写、指书等)方面,目前采用的大都是整字输入、整字识别技术,前提是要建立汉字识别库。对GB13000.1字符集建立汉字识别库,就要包含约21003个对象;要把一个字基本写完整才能将这个字显示在屏幕上或屏幕待选框中,然后才由它产生词语或语句级联想,进行联想智能输入。受目前手写技术的影响,这类书写的准确率和速度并不高。并且由于传统的汉字书写习惯以及手指手掌大小的限定,这类技术的运用受到手写屏幕(或区域)的限制。比如说不用书写笔,书写屏就得够大,否则就必须配备手写笔,且要“双管齐下”,给使用者带来不便。

在汉字排序检索方面,教育部、国家语委发布了语言文字规范《汉字部首表》和《GB13000.1字符集汉字部首归部规范》,以统一汉字部首。然而,部首检字法的弊端并不会因为部首的统一而消减多少。“统一”之下汉字找部首的方法也并不一定简单,第二是数笔画太繁琐。要查一个汉字,大致要经历如下四个步骤:第一步,找出部首,数部首的笔画;第二步,到部首表中找到该部首,按所示页码翻到该部首栏;第三步,数汉字除部首以外的笔画,到部首栏中找到该笔画数一栏,找到该汉字;第四步,按所示页码翻到正文该页,再找该汉字。另外,汉字部首的统一依然侧重语言文字传统,它并不能更有利于解决中文信息处理比如说智能汉字输入、信息技术汉语(汉字)教学等问题。

在信息技术汉语(汉字)教学方面,目前国家只允许拼音输入法进入中小学教育界。汉语拼音方案虽然方便汉字拼读,但并不能也决不能代替汉字的书写。汉语拼音输入带来的负面影响是常常“提笔忘字”,这不利于对汉字的掌握。因此必须要有符合汉字书写规范的字形输入法来帮助进行汉语(汉字)教学。可惜已有的字形输入法一般拆字复杂、乱拆汉字、规则不一、难学难用,难以辅助汉语(汉字)教学。“信息产品中的语言文字标准更强调技术性,与教育等领域的语言文字传统常常有些差距,这样就可能出现学校的信息教育与语文教学之间的不协调。怎样克服这种不协调现象,进而怎样利用信息技术促进语文教学,是值得思考的问题。”

目前中文分词算法有三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。基于理解的分词方法模拟人对句子的理解过程,虽为理想中的分词方法,但由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词方法还不够成熟,反而是基于统计的分词方法是主流的分词方法。基于统计的分词方法其分词单位一般反映出的是音节与音节的组合,即便有网络搜索引擎技术的介入,分词效果也并非十分理想,错误率也比较高,这一效果直接制约着汉字输入、语音输入、机器翻译及智能搜索等技术的发展。

发明内容

影响汉字输入精度的根本原因是汉语分词精度,而在同等分词精度条件或同等软件技术条件下,输入速度又取决于输入取码方式与分词精度的有效结合度。简言之,要提高输入精度和输入速度,就要提高分词精度,找到一种更好的输入方式,并能使它们有机结合,这是一个问题的三个方面。

在提高分词精度方面,基于上下文关联的智能输入软件,如青月亮汉字通智能输入软件平台和二笔智能输入软件等,采用人工分词,有效降低了歧义分词错误。可见,在自动分词成为主流的时代,人工分词仍然有着重要的现实意义,在必要的情况下仍可成为自动分词的一个重要而关键的补充。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于王道平,未经王道平许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201010113276.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top