[发明专利]一种汉语语法纠错的评估方法、装置、设备及存储介质有效
申请号: | 202210443576.X | 申请日: | 2022-04-26 |
公开(公告)号: | CN114818666B | 公开(公告)日: | 2023-03-28 |
发明(设计)人: | 蒋盛益;林楠铠;林晓钿;武洪艳 | 申请(专利权)人: | 广东外语外贸大学 |
主分类号: | G06F40/226 | 分类号: | G06F40/226;G06F40/216;G06F40/253;G06F40/169 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 陈旭红 |
地址: | 510420 *** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 汉语 语法 纠错 评估 方法 装置 设备 存储 介质 | ||
1.一种汉语语法纠错的评估方法,其特征在于,包括:
对原始汉语语法纠错评估语料库的测试集进行标注,得到扩充测试集;其中,所述扩充测试集包括若干原始句子,及对应的若干黄金标准注释;
将每一修正句子分别与所有所述黄金标准注释进行匹配,计算得到基于句子级别的准确率;其中,所述修正句子为所述原始句子利用待评估汉语语法纠错模型进行修正后得到的句子;
基于所有所述修正句子,利用BLEU算法,计算得到基于字级别的BLEU值;
将每一所述修正句子分别与对应的所述原始句子进行匹配,计算得到基于字级别的修改度;
根据所述准确率、所述BLEU值和所述基于字级别的修改度对所述待评估汉语语法纠错模型进行评估;
其中,所述对原始汉语语法纠错评估语料库的测试集进行标注,得到扩充测试集,包括:
对所述测试集中每一第一原始句子进行标注,得到每一所述第一原始句子的若干修正答案;其中,所述第一原始句子为含有两个黄金标准注释的原始句子;
对于每一所述第一原始句子的若干修正答案,当出现至少两个相同的修正答案时,将所述相同的修正答案作为新的黄金标准注释添加至所述测试集的黄金标准校正注释集中,得到扩充测试集;
对所述测试集中每一第二原始句子进行标注,以确认每一所述第二原始句子的黄金标准注释;其中,所述第二原始句子为含有一个黄金标准注释的原始句子;
所述基于所有所述修正句子,利用BLEU算法,计算得到基于字级别的BLEU值,包括:
根据下式计算每一修正句子Ci在不同粒度n下的准确率:
式中,hk(·)表示出现在句子中的第k个n-gram的数量,maxj∈m(hk(ij))表示任一n-gram在所有的m个黄金标准注释中的最高频率;
根据下式计算简洁惩罚因子:
式中,lc表示修正句子Ci的长度,ls为最接近lc的黄金标准注释的长度;
根据下式计算BLEU值:
式中,BP是简洁惩罚因子,Pn是修正句子Ci在不同粒度n下的准确率,Wn表示权重。
2.如权利要求1所述的汉语语法纠错的评估方法,其特征在于,所述将每一修正句子分别与所有所述黄金标准注释进行匹配,计算得到基于句子级别的准确率,包括:
将每一所述修正句子分别与所有所述黄金标准注释进行匹配,得到若干有效的修正句子;
统计所有所述有效的修正句子的总数量,并将所述总数量除以所述扩充测试集的样本数,得到基于句子级别的准确率。
3.如权利要求1所述的汉语语法纠错的评估方法,其特征在于,所述将每一所述修正句子分别与对应的所述原始句子进行匹配,计算得到基于字级别的修改度,包括:
将每一所述修正句子分别与对应的所述原始句子进行匹配,得到每一匹配字符数与对应的所述修正句子的字符数的每一第一比值、每一所述匹配字符数与对应的所述原始句子的字符数的每一第二比值;其中,所述匹配字符数为所述修正句子与对应的所述原始句子之间匹配的字符数;
根据每一所述第一比值和每一所述第二比值,计算得到每一所述修正句子的每一修改度得分;
计算得到所有所述修改度得分的平均值;
将每一所述修改度得分分别与所述平均值进行比较,得到每一比较结果;
计算所有所述比较结果的平均值,得到基于字级别的修改度。
4.如权利要求1所述的汉语语法纠错的评估方法,其特征在于,所述对原始汉语语法纠错评估语料库的测试集进行标注,得到扩充测试集,还包括:
对于每一所述第一原始句子的若干修正答案,对只出现一次的修正答案进行审核。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东外语外贸大学,未经广东外语外贸大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210443576.X/1.html,转载请声明来源钻瓜专利网。