[发明专利]一种错误文本拒识方法、装置及存储介质有效
申请号: | 201910355204.X | 申请日: | 2019-04-29 |
公开(公告)号: | CN110134952B | 公开(公告)日: | 2020-03-31 |
发明(设计)人: | 张涵;庄豪爽;钟顺明;冯韩德 | 申请(专利权)人: | 华南师范大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/226 |
代理公司: | 广州骏思知识产权代理有限公司 44425 | 代理人: | 吴静芝 |
地址: | 510006 广东省广州市番禺区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 错误 文本 方法 装置 存储 介质 | ||
1.一种错误文本拒识方法,其特征在于,包括以下步骤:
对待检文本进行文字长度判决;
当待检文本文字长度高于设定阈值时,调用自定义关键词词库和通用命名实体库提取词库命中率及命中词词频两维特征,调用N-gram语言模型提取优化后的2-gram语言困惑度及句子置信度两维特征,将提取的特征送入训练好的SVM模型判决该文本是否属于错误文本;当待检文本文字长度低于设定阈值时,调用自定义关键词词库和通用命名实体库对该文本进行规则匹配判决该文本是否属于错误文本;
输出待检文本判决结果。
2.根据权利要求1所述的错误文本拒识方法,其特征在于:在调用N-gram语言模型提取优化后的2-gram语言困惑度及句子置信度两维特征的步骤之前,利用jieba分词工具进行文本分词,将待检文本转化为词序列(w1w2..wN)。
3.根据权利要求2所述的错误文本拒识方法,其特征在于:在调用N-gram语言模型提取优化后的2-gram语言困惑度及句子置信度两维特征的步骤中,所述N-gram语言模型通过Kenlm工具自学习迭代训练文本语料得到,该步骤具体包括:
以部分未拒识文本语料训练基础N-gram语言模型;
依据基础N-gram语言模型,拒识后续文本语料,得到文本语料集;
将文本语料集加入基础文本语料集,以更新后的文本语料集训练N-gram语言模型。
4.根据权利要求3所述的错误文本拒识方法,其特征在于:所述调用N-gram语言模型提取优化后的2-gram语言困惑度及句子置信度两维特征的步骤中,按照下述方式提取所述优化后的2-gram语言困惑度:
其中,S为待检文本,N为待检文本的词序列长度,所述2-gramscore代表一个2-gram组合出现的概率;ωi为依据文本长度以及词频数统计构造的约束项:
其中,Ui代表2-gram组合,Len(Ui)代表该2-gram组合的文本长度,β为经验阈值,conf(Ui)代表2-gram组合的句子置信度:
其中,N为待检文本的词序列长度,wi表示2-gram组合中某词,Len(wi)表示词长,x表示词频,xmax表示词频上限,如果wi的词频x小于词频上限xmax,则否则conf(wi)=1;
按照下述方式获得文本的句子置信度:
其中,S为待检文本,N为待检文本的词序列长度,wi表示词序列(w1w2..wN)的某分词,Len(wi)表示词长,x表示词频,xmax表示词频上限,如果wi的词频x小于词频上限xmax,则否则conf(wi)=1。
5.根据权利要求1所述的错误文本拒识方法,其特征在于:所述调用自定义关键词词库和通用命名实体库提取词库命中率及命中词词频两维特征步骤中,所述自定义关键词词库的构建步骤包括:
对文本语料进行数据清洗,剔除无效文本,滤除无语义信息的语气助词;
按字数分别保存单字至三字文本,筛选正确文本直至正确文本占总文本覆盖率达97%,依此分别构建单字至三字关键词词库。
6.根据权利要求1所述的错误文本拒识方法,其特征在于:在将提取的特征送入训练好的SVM模型判决该文本是否属于错误文本的步骤中,所述SVM模型的训练步骤包括:
分析待检文本数据并进行特征构建,对获得的特征进行分析并对特征进行选择组合;
标记正负样本集合;
选择SVM核函数及对SVM模型参数及进行调优,并训练模型;
保存SVM模型结果,评估SVM模型并获取最优分类阈值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南师范大学,未经华南师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910355204.X/1.html,转载请声明来源钻瓜专利网。