[发明专利]基于用户反馈的行业拼写错误检查方法有效
申请号: | 201410149427.8 | 申请日: | 2014-04-14 |
公开(公告)号: | CN103885938A | 公开(公告)日: | 2014-06-25 |
发明(设计)人: | 杨明;罗军舟;倪俊辉;马成平;任新才 | 申请(专利权)人: | 东南大学;焦点科技股份有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 南京知识律师事务所 32207 | 代理人: | 张苏沛 |
地址: | 210000 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于用户反馈的行业拼写错误检查方法,该方法利用分类设计的用户字典,采用N-gram方法对英文文本进行拼写错误检查,并通过大语料数据库搜索来完成正确单词的推荐,从而实现与用户相关联的拼写错误检查。N-gram作为自然语言处理的基本方法,通过单词或语句特征以及语料库中的统计信息对文本中的错误进行检查;分类设计的用户字典根据当前使用者的历史信息,结合语料库的统计数据选择出与用户输入文本中错误单词最相关的推荐单词;使用维特比算法找出数据库中条件概率乘积最大的单词链,提高大语料库中隐马尔科夫模型的计算效率和数据库中统计信息的使用效率。 | ||
搜索关键词: | 基于 用户 反馈 行业 拼写 错误 检查 方法 | ||
【主权项】:
基于用户反馈的行业拼写错误检查方法,其特征是,包括步骤:步骤一、语料库和用户字典的获取与建立:语料库分为用户字典、核心语料库和行业语料库,作为存储语言信息的核心统计数据,保存着整个语言的词法、语法和语义信息,当进行拼写错误检查时,语料库为拼写错误检查模型提供所有的单词、语句信息,给出整个语言的全局数据;同时,根据用户输入的文本以及使用情况,获取新的关于用户的语料信息,更新语料库和用户字典;在数据库中,定义数据表对整体的语料及用户输入信息进行存储;步骤二、拼写错误检查模型的构建:拼写错误检查模型的构建是以N‑gram模型对语料库的统计信息进行计算,取得条件概率最大的单词链组合;步骤三、系统交互界面通过使用拼写错误检查模型中的错误检查和单词推荐对用户输入的文本进行处理;步骤四、更新与用户相关的文本统计信息、字典和语料库:对用户的输入和选择的正确单词进行统计,将正确文本中的单词信息和上下文统计入用户字典、核心语料库和相应的行业语料库。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学;焦点科技股份有限公司,未经东南大学;焦点科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410149427.8/,转载请声明来源钻瓜专利网。
- 上一篇:一种浅水湖泊水下光场同步监测系统
- 下一篇:基于图像识别的智能切割工艺