[发明专利]一种基于篇章文档的自适应输入法有效

专利信息
申请号: 201410229623.6 申请日: 2014-05-27
公开(公告)号: CN103970910B 公开(公告)日: 2017-02-15
发明(设计)人: 戴新宇;杨理想;陈家骏;黄书剑;李斌 申请(专利权)人: 南京大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 江苏圣典律师事务所32237 代理人: 胡建华
地址: 210023 江苏省南*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 篇章 文档 自适应 输入法
【说明书】:

技术领域

发明是一种输入法,特别是一种基于篇章文档的自适应输入法。

背景技术

随着计算机使用的广泛普及,中文输入问题已经变得日益重要,经过近几十年的研究,中文的输入已经包括了诸如最常见的键盘输入、语音输入、手写输入以及最近的移动平台触摸输入,多种多样的输入方式从一方面说明了中文输入技术的不断成熟,从另外一个方面来说,也说明了中文输入在当前这个信息时代的重要性。由于输入法其在当前信息社会独特的重要性,目前个人计算机平台的输入法拥有丰富的功能,其目标是最大化的改善用户输入的体验。

但是,目前的输入法的准确率仍然没有达到人们所期望的程度,很多时候还是要选择很多次才能找到用户想要的,归其原因,主要是现行的输入法主要是建立在大数据基础之上,贴近的是大多数用户,但是针对每个用户实效性还是有待提高,每个用户在每个时间段会处于不同的用语环境,这样大数据就无法很有效的实时切换相应的知识领域以贴近用户的习惯,特别是在某些特定领域的工作者,比如古汉语,现行输入法的性能就更差了。基于此本发明提出一种输入法新的思路,直接从用户的篇章文档出发,系统自学习数据,建立每个用户自己的数据集信息。

传统输入法都是在大数据上训练,不分领域,同时无法感知用户当前所在知识领域,这样会出现重码率很高,用户选择的次数会升高等问题,虽然传统输入法都有记忆功能(即用户刚选择的字串下次重新输入时会排在首要位置),但是这种方法是固定的和机械的,不是动态的,在不同领域、不同用语环境之间切换时容易出现混乱。

发明内容

发明目的:本发明所要解决的技术问题是针对当下使用各种输入法时,选择的次数太多,尤其是对于一些特定领域的知识,以及在不同文档、不同领域等不同用语环境之间切换,现存主流输入法无法做到自动感知、动态调整到当前知识领域中,用户要经过多次选择才能命中想要输入的字串的问题,提供一种基于篇章文档的自适应输入法。

为了解决上述的技术问题,本发明公开了一种构建输入法的方法,该方法是基于每个用户本地文档、篇章信息,通过利用这些信息建立一个基础数据集;同时,系统建立不同领域的领域数据集,通过用户当前的输入自动感知输入信息的领域类别,同时将数据集切换到相应的领域数据集上,调整基础数据集和领域数据集之间的参数,调高领域数据集的权值比重,使得输入法智能的理解用户的输入需求,并随着输入信息的增多实时的更新领域数据集,随着领域数据集的更新不断添加基础数据集的信息,随着用户的使用时间不断增加,用户自己的数据集的不断增大,系统会越来越贴近每个用户特定的输入习惯。

所述输入法包括的步骤如下:

步骤一中,建立基础数据集的两种方法,根据本地文档建立基础数据集,系统自动获取用户本地n篇文档信息D={d1,d2,...,dn}作为数据源,通过输入法的统计模型(如语言模型N-gram)自学习;

具体过程为:对于每一篇文档di(1≤i≤n)(di为n篇文档中的一篇),分别计算一元、二元、三元文法,将一篇文档表示成di={w1,w2...,wm},其中m表示一篇文档中不重复字总的个数;

一元文法计算过程:计算每篇文档中的每个字出现的次数,给上述n篇文档都建立一个集合ci={(w1,count1),(w2,count2),...,(wm,countm)}(1≤i≤n),其中每个二元组(wk,countk)表示在任意一篇文档di中字wk出现了countk次,其中k的值对于某个集合ci范围(1≤k≤m);然后将每篇文档统计的集合{ci,c2...,cn}合并为一个总的集合C:

C={(w1,ACount1),(w2,ACount2),...,(wl,ACountl)}

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410229623.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top