[发明专利]基于汉字拆分的智能语句级汉字输入系统无效
申请号: | 201010113276.2 | 申请日: | 2010-01-30 |
公开(公告)号: | CN101833376A | 公开(公告)日: | 2010-09-15 |
发明(设计)人: | 王道平 | 申请(专利权)人: | 王道平 |
主分类号: | G06F3/023 | 分类号: | G06F3/023;G06F3/041;G06F17/27;G06F17/28;G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 430065 湖北省*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 汉字 拆分 智能 语句 汉字输入 系统 | ||
技术领域
本发明涉及中文信息处理领域,特别适用于汉字键盘输入、汉字手写(笔写、指书等)输入、信息技术汉语(汉字)教学、信息化汉字检索、汉语分词、语音输入、机器翻译及网络智能搜索等领域。
背景技术
在汉字键盘输入方面,诸如“优化五笔字型”的字形输入速度快的最大优点已变得并不明显,难学难用性也依旧,反而是拼音输入不仅保持了易学易用的最大优点,在输入速度上也大有改观。特别是搜狗、谷歌、QQ等拼音输入法的面世,可以说标志着汉字输入进入了比较成熟的拼音语句级输入时代,输入速度直逼字形输入法。但即使是在这类智能化的输入法中,语句转换错误的现象也常会发生,简拼输入时就更为明显。其原因在于,目前自动分词的准确度尚达不到100%,全拼难以达到,简拼就更达不到。因此它们无法根本解决语句输入(特别是短语输入)“回头看”的问题,也难以缩短平均码长。正是由于这些原因,数字键盘的汉字输入效果就更不理想,速度和效率都很低下。
在汉字手写(笔写、指书等)方面,目前采用的大都是整字输入、整字识别技术,前提是要建立汉字识别库。对GB13000.1字符集建立汉字识别库,就要包含约21003个对象;要把一个字基本写完整才能将这个字显示在屏幕上或屏幕待选框中,然后才由它产生词语或语句级联想,进行联想智能输入。受目前手写技术的影响,这类书写的准确率和速度并不高。并且由于传统的汉字书写习惯以及手指手掌大小的限定,这类技术的运用受到手写屏幕(或区域)的限制。比如说不用书写笔,书写屏就得够大,否则就必须配备手写笔,且要“双管齐下”,给使用者带来不便。
在汉字排序检索方面,教育部、国家语委发布了语言文字规范《汉字部首表》和《GB13000.1字符集汉字部首归部规范》,以统一汉字部首。然而,部首检字法的弊端并不会因为部首的统一而消减多少。“统一”之下汉字找部首的方法也并不一定简单,第二是数笔画太繁琐。要查一个汉字,大致要经历如下四个步骤:第一步,找出部首,数部首的笔画;第二步,到部首表中找到该部首,按所示页码翻到该部首栏;第三步,数汉字除部首以外的笔画,到部首栏中找到该笔画数一栏,找到该汉字;第四步,按所示页码翻到正文该页,再找该汉字。另外,汉字部首的统一依然侧重语言文字传统,它并不能更有利于解决中文信息处理比如说智能汉字输入、信息技术汉语(汉字)教学等问题。
在信息技术汉语(汉字)教学方面,目前国家只允许拼音输入法进入中小学教育界。汉语拼音方案虽然方便汉字拼读,但并不能也决不能代替汉字的书写。汉语拼音输入带来的负面影响是常常“提笔忘字”,这不利于对汉字的掌握。因此必须要有符合汉字书写规范的字形输入法来帮助进行汉语(汉字)教学。可惜已有的字形输入法一般拆字复杂、乱拆汉字、规则不一、难学难用,难以辅助汉语(汉字)教学。“信息产品中的语言文字标准更强调技术性,与教育等领域的语言文字传统常常有些差距,这样就可能出现学校的信息教育与语文教学之间的不协调。怎样克服这种不协调现象,进而怎样利用信息技术促进语文教学,是值得思考的问题。”
目前中文分词算法有三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。基于理解的分词方法模拟人对句子的理解过程,虽为理想中的分词方法,但由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词方法还不够成熟,反而是基于统计的分词方法是主流的分词方法。基于统计的分词方法其分词单位一般反映出的是音节与音节的组合,即便有网络搜索引擎技术的介入,分词效果也并非十分理想,错误率也比较高,这一效果直接制约着汉字输入、语音输入、机器翻译及智能搜索等技术的发展。
发明内容
影响汉字输入精度的根本原因是汉语分词精度,而在同等分词精度条件或同等软件技术条件下,输入速度又取决于输入取码方式与分词精度的有效结合度。简言之,要提高输入精度和输入速度,就要提高分词精度,找到一种更好的输入方式,并能使它们有机结合,这是一个问题的三个方面。
在提高分词精度方面,基于上下文关联的智能输入软件,如青月亮汉字通智能输入软件平台和二笔智能输入软件等,采用人工分词,有效降低了歧义分词错误。可见,在自动分词成为主流的时代,人工分词仍然有着重要的现实意义,在必要的情况下仍可成为自动分词的一个重要而关键的补充。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于王道平,未经王道平许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010113276.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:减胎器
- 下一篇:一种专用于银带与铜带进行连续电阻焊的缝焊机