[发明专利]基于多元特征的英语作文语法错误自动纠正方法有效
申请号: | 201310311955.4 | 申请日: | 2013-07-24 |
公开(公告)号: | CN103365838A | 公开(公告)日: | 2013-10-23 |
发明(设计)人: | 黄桂敏;周娅;王晓娟 | 申请(专利权)人: | 桂林电子科技大学 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 桂林市华杰专利商标事务所有限责任公司 45112 | 代理人: | 罗玉荣 |
地址: | 541004 广西*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 多元 特征 英语 作文 语法错误 自动 纠正 方法 | ||
技术领域
本发明涉及自然语言处理技术与统计学,具体是基于多元特征的英语作文语法错误自动纠正方法。
背景技术
目前,英语作文语法错误的自动纠正方法主要分为两类,即:基于规则的英语作文语法错误自动纠正方法和基于统计的英语作文语法错误自动纠正方法。其中,基于规则的英语作文语法错误自动纠正方法是:通过分析英语句子的语法特征,总结归纳出固定的英语语法规则来构建英语句子语法规则纠错模型,当对英语作文的语法错误进行纠正时,构建英语句子语法规则纠错模型对英语作文中句子的语法进行检查,判断它们是否符合模型中存在的语法规则,来实现对英语作文中语法错误的自动纠正。基于统计的英语作文语法错误自动纠正方法是:通过训练文本集来构建英语句子的语法纠错统计模型,使用英语句子的语法纠错统计模型对英语作文中语法错误进行纠正处理。然而,这两种英语作文语法错误的自动纠正方法都存在如下优点与缺点。
1、基于规则的英语作文语法错误自动纠正方法
优点:纠错准确率高、执行效率高、使用简单,并且对于一些语法固定搭配、某些单词特殊用法、固定的语法规则、语法时态数一致性具有较好的纠错效果。
缺点:由于英语使用的灵活性和多变性,构建一种英语语法规则模型要花费较长时间,而且总结归纳的英语语法规则只能覆盖局限语法规则,英语语法错误纠正类型有限。
2、基于统计的英语作文语法错误自动纠正方法
优点:对于难以用语法规则描述的英语语法错误,这种方法具有较好的纠正效果。
缺点:英语语法纠错正确率受到训练文本集规模、语法特征提取广度和精度、训练构建的语法统计纠错模型好坏的影响,所以这种方法的纠错正确率有待改进。
总之,英语作文语法错误的自动纠正技术具有非常广阔的应用前景,例如:作者利用它自动纠正其英语作文中语法错误,以提高自身的英语写作水平;英语机器翻译系统使用它纠正输出的翻译结果,以提高英语机器翻译系统的译文准确度。
发明内容
本发明的目的是提供基于多元特征的英语作文语法错误自动纠正方法。
基于多元特征的英语作文语法错误自动纠正方法,其中包括语法纠错预处理模块、语法纠错模型训练模块和语法错误检查纠正模块;
语法纠错预处理模块处理包括:输入训练文本集,对训练文本集进行单词词性标注、句子句法解析和单词词频统计,输出单词词性标注库、句子句法树结构库、单词词频统计库;
语法纠错模型训练模块处理包括:输入单词词性标注库、句子句法树结构库、单词词频统计库、单词词性语法混淆集,根据单词词性语法混淆集提取单词词性上下文语法特征、单词词性结构依赖语法特征,根据单词多元语法特征提取单词及其词性的语法特征,利用单词词频统计库计算单词语法特征权重,生成语法纠错统计模型,输出语法纠错统计模型;
语法错误检查纠正模块处理包括:输入语法纠错统计模型、语法纠错规则模型、单词词性语法混淆集,采用语法纠错统计模型纠正英语作文中冠词错误、介词错误、词性混淆错误、动词形态错误、助动词错误、主谓不一致错误,利用语法纠错规则模型纠正英语作文中单复数不一致错误、片段错误、形容词比较级最高级错误、动词与补语搭配错误、单词重复使用错误,输出英语作文中语法错误的纠正结果。
所述的语法纠错预处理模块具体处理流程如下:
S0201开始;
S0202读入训练文本集;
S0203使用宾州树库标注集标注训练文本集中句子,输出单词词性标注库;
S0204使用上下文无关文法单词词性句法解析方法训练文本集中句子,输出句子句法树结构库;
S0205遍历单词词性标注库;
S0206如果单词词性标注库遍历结束,则转S0210操作;否则转S0207操作;
S0207如果当前单词在单词词频链表中,则转S0208操作;否则转S0209操作;
S0208当前单词及其词性在单词词频链表中词频加1,转S0205操作;
S0209当前单词及其词性加入单词词频链表,当前单词及其词性在单词词频链表中词频加1,转S0205操作;
S0210遍历句子句法树结构库;
S0211如果句法树结构库遍历结束,则转S0215操作;否则转S0212操作;
S0212如果当前短语在单词词频链表中,则转S0213操作;否则转S0214操作;
S0213当前短语及其词性在单词词频链表中词频加1,转S0210操作;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310311955.4/2.html,转载请声明来源钻瓜专利网。