[发明专利]一种基于篇章文档的自适应输入法有效
申请号: | 201410229623.6 | 申请日: | 2014-05-27 |
公开(公告)号: | CN103970910B | 公开(公告)日: | 2017-02-15 |
发明(设计)人: | 戴新宇;杨理想;陈家骏;黄书剑;李斌 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 江苏圣典律师事务所32237 | 代理人: | 胡建华 |
地址: | 210023 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 篇章 文档 自适应 输入法 | ||
1.一种基于篇章文档的自适应输入法,其特征在于,包括以下步骤:
步骤一,建立基础数据集Base;
步骤二,建立领域数据集Dset:
步骤三,根据用户已经输入信息以及领域数据集和基础数据集之间的权重关系调整得到当前输入字的概率;
步骤四,音字转换输出:切分用户输入的拼音串、结合步骤三当前输入字的概率,利用隐马尔科夫模型HMM,计算得出字串的概率,并按照字串概率值的大小排序输出;
步骤五,领域数据集实时更新:输入法根据用户的输入得出可能的字串,再根据用户选定的字串添加到相应的领域数据集中实时更新信息;
步骤六,基础数据集更新:提取领域数据集中出现频率大于设定阈值的字串添加到基础数据集中,不断更新基础数据集。
2.根据权利要求1所述的输入法,其特征在于:步骤一中根据本地的或者输入法自带的n篇文档D作为数据源建立基础数据集,D={d1,d2,...,dn},通过输入法自学习,对于每一篇文档di分别计算一元、二元、三元文法,分别得到:
每个字对应出现概率的一元文法集合base1:
base1={(w1,P(w1)),(w2,P(w2)),...,(wl,P(wl))},
其中l为n篇文档所有不重复字的总个数,wl表示第l个字,P(wl)表示n篇文档中第l个字wl在一元文法集合base1上出现的概率;
每两个相邻的字对应出现的概率的二元文法集合base2:
base2={(w1,w2,P(w1,w2)),(w2,w3,P(w2,w3)),...,(wf,wf+1,P(wf,wf+1))},
其中f为n篇文档所有不重复的相邻两个字的总个数,wf表示第f个字,wf+1表示第f+1个字,P(wf,wf+1)表示n篇文档中不重复的相邻第wf个字和第wf+1个字在二元文法集合base2上出现的概率;
每三个相邻的字对应出现的概率的三元文法集合base3:
base3={(w1,w2,w3,P(w1,w2,w3)),...,(wq-1,wq,wq+1,P(wq-1,wq,wq+1))},
其中q为n篇文档所有不重复的相邻三个字的总个数,wq-1表示第q-1个字,wq表示第q个字,wq+1表示第q+1个字,P(wq-1,wq,wq+1)表示n篇文档中不重复的相邻第q-1个字、第q个字和第q+1个字在三元文法集合base3上出现的概率;
将一元文法集合base1、二元文法集合base2、三元文法集合base3计算得到的相应概率值存入数据库,完成构建基础数据集Base。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410229623.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:预制通孔装配式钢筋混凝土剪力墙
- 下一篇:一种光传输装置及移动电子装置