[发明专利]一种错误文本拒识方法、装置及存储介质有效

专利信息
申请号: 201910355204.X 申请日: 2019-04-29
公开(公告)号: CN110134952B 公开(公告)日: 2020-03-31
发明(设计)人: 张涵;庄豪爽;钟顺明;冯韩德 申请(专利权)人: 华南师范大学
主分类号: G06F40/295 分类号: G06F40/295;G06F40/226
代理公司: 广州骏思知识产权代理有限公司 44425 代理人: 吴静芝
地址: 510006 广东省广州市番禺区*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 错误 文本 方法 装置 存储 介质
【权利要求书】:

1.一种错误文本拒识方法,其特征在于,包括以下步骤:

对待检文本进行文字长度判决;

当待检文本文字长度高于设定阈值时,调用自定义关键词词库和通用命名实体库提取词库命中率及命中词词频两维特征,调用N-gram语言模型提取优化后的2-gram语言困惑度及句子置信度两维特征,将提取的特征送入训练好的SVM模型判决该文本是否属于错误文本;当待检文本文字长度低于设定阈值时,调用自定义关键词词库和通用命名实体库对该文本进行规则匹配判决该文本是否属于错误文本;

输出待检文本判决结果。

2.根据权利要求1所述的错误文本拒识方法,其特征在于:在调用N-gram语言模型提取优化后的2-gram语言困惑度及句子置信度两维特征的步骤之前,利用jieba分词工具进行文本分词,将待检文本转化为词序列(w1w2..wN)。

3.根据权利要求2所述的错误文本拒识方法,其特征在于:在调用N-gram语言模型提取优化后的2-gram语言困惑度及句子置信度两维特征的步骤中,所述N-gram语言模型通过Kenlm工具自学习迭代训练文本语料得到,该步骤具体包括:

以部分未拒识文本语料训练基础N-gram语言模型;

依据基础N-gram语言模型,拒识后续文本语料,得到文本语料集;

将文本语料集加入基础文本语料集,以更新后的文本语料集训练N-gram语言模型。

4.根据权利要求3所述的错误文本拒识方法,其特征在于:所述调用N-gram语言模型提取优化后的2-gram语言困惑度及句子置信度两维特征的步骤中,按照下述方式提取所述优化后的2-gram语言困惑度:

其中,S为待检文本,N为待检文本的词序列长度,所述2-gramscore代表一个2-gram组合出现的概率;ωi为依据文本长度以及词频数统计构造的约束项:

其中,Ui代表2-gram组合,Len(Ui)代表该2-gram组合的文本长度,β为经验阈值,conf(Ui)代表2-gram组合的句子置信度:

其中,N为待检文本的词序列长度,wi表示2-gram组合中某词,Len(wi)表示词长,x表示词频,xmax表示词频上限,如果wi的词频x小于词频上限xmax,则否则conf(wi)=1;

按照下述方式获得文本的句子置信度:

其中,S为待检文本,N为待检文本的词序列长度,wi表示词序列(w1w2..wN)的某分词,Len(wi)表示词长,x表示词频,xmax表示词频上限,如果wi的词频x小于词频上限xmax,则否则conf(wi)=1。

5.根据权利要求1所述的错误文本拒识方法,其特征在于:所述调用自定义关键词词库和通用命名实体库提取词库命中率及命中词词频两维特征步骤中,所述自定义关键词词库的构建步骤包括:

对文本语料进行数据清洗,剔除无效文本,滤除无语义信息的语气助词;

按字数分别保存单字至三字文本,筛选正确文本直至正确文本占总文本覆盖率达97%,依此分别构建单字至三字关键词词库。

6.根据权利要求1所述的错误文本拒识方法,其特征在于:在将提取的特征送入训练好的SVM模型判决该文本是否属于错误文本的步骤中,所述SVM模型的训练步骤包括:

分析待检文本数据并进行特征构建,对获得的特征进行分析并对特征进行选择组合;

标记正负样本集合;

选择SVM核函数及对SVM模型参数及进行调优,并训练模型;

保存SVM模型结果,评估SVM模型并获取最优分类阈值。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南师范大学,未经华南师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910355204.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top