[发明专利]一种错误文本拒识方法、装置及存储介质有效
申请号: | 201910355204.X | 申请日: | 2019-04-29 |
公开(公告)号: | CN110134952B | 公开(公告)日: | 2020-03-31 |
发明(设计)人: | 张涵;庄豪爽;钟顺明;冯韩德 | 申请(专利权)人: | 华南师范大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/226 |
代理公司: | 广州骏思知识产权代理有限公司 44425 | 代理人: | 吴静芝 |
地址: | 510006 广东省广州市番禺区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种错误文本拒识方法、装置及存储介质,本发明通过对待检文本进行文字长度判决,当待检文本文字长度高于设定阈值时,调用自定义关键词词库和通用命名实体库提取词库命中率及命中词词频两维特征,调用N‑gram语言模型提取优化后的2‑gram语言困惑度及句子置信度两维特征,将提取的特征送入训练好的SVM模型判决该文本是否属于错误文本;当待检文本文字长度低于设定阈值时,调用自定义关键词词库和通用名实体库对该文本进行规则匹配判决该文本是否属于错误文本。相对于现有技术,本发明提升了人机对话系统的容错性。 | ||
搜索关键词: | 一种 错误 文本 方法 装置 存储 介质 | ||
【主权项】:
1.一种错误文本拒识方法,其特征在于,包括以下步骤:对待检文本进行文字长度判决;当待检文本文字长度高于设定阈值时,调用自定义关键词词库和通用命名实体库提取词库命中率及命中词词频两维特征,调用N‑gram语言模型提取优化后的2‑gram语言困惑度及句子置信度两维特征,将提取的特征送入训练好的SVM模型判决该文本是否属于错误文本;当待检文本文字长度低于设定阈值时,调用自定义关键词词库和通用名实体库对该文本进行规则匹配判决该文本是否属于错误文本;输出待检文本判决结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南师范大学,未经华南师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910355204.X/,转载请声明来源钻瓜专利网。