[发明专利]无语义文本的识别方法及装置有效
申请号: | 201710182218.7 | 申请日: | 2017-03-24 |
公开(公告)号: | CN108628822B | 公开(公告)日: | 2021-12-07 |
发明(设计)人: | 江南;祝慧佳 | 申请(专利权)人: | 创新先进技术有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284 |
代理公司: | 北京亿腾知识产权代理事务所(普通合伙) 11309 | 代理人: | 陈霁 |
地址: | 开曼群岛大开曼岛*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语义 文本 识别 方法 装置 | ||
1.一种无语义文本的识别方法,其特征在于,包括:
获取待识别文本;
对所述待识别文本进行预处理;
确定预处理后的待识别文本的各个词序列;
根据N-gram语言模型,确定所述各个词序列的概率分数值;
根据所述各个词序列的概率分数值以及所述词序列的个数,确定所述待识别文本的平均概率分数值和概率分数标准差值;
分别对所述平均概率分数值和所述概率分数标准差值进行归一化处理,得到对应的第一处理结果和第二处理结果;
比较所述第一处理结果与所述第二处理结果;
若所述第一处理结果较大,则对所述第一处理结果进行放大处理,并将放大处理后的第一处理结果确定为所述待识别文本的综合分数值;
若所述第二处理结果较大,则对所述第二处理结果进行放大处理,并将放大处理后的第二处理结果确定为所述待识别文本的综合分数值;
当所述综合分数值满足预设条件时,将所述待识别文本识别为无语义文本。
2.根据权利要求1所述的方法,其特征在于,所述对所述待识别文本进行预处理包括以下任意一个或多个步骤:
去除所述待识别文本中的干扰元素;
将所述待识别文本中的繁体字转换为简体字;
将所述待识别文本中的数字字符串转换为预定格式;
对所述待识别文本进行子句拆分。
3.根据权利要求1或2所述的方法,其特征在于,还包括:训练所述N-gram语言模型的步骤,包括:
获取训练样本集合,所述训练样本集合包括至少一个训练样本;
对所述训练样本集合中的各个训练样本进行预处理;
对预处理后的每个训练样本,确定所述训练样本中的各个词语组合;
统计所述各个训练样本中的各个词语组合出现的次数;
所述各个词语组合以及所述次数构成所述N-gram语言模型。
4.根据权利要求3所述的方法,其特征在于,所述训练样本包括:
中文的文本、英文的文本和/或其它目标语种的文本;所述文本包括新闻内容、博客内容、论坛内容和/或聊天内容。
5.根据权利要求3所述的方法,其特征在于,在所述确定所述训练样本中的各个词语组合之后,还包括:
对所述各个词语组合中的每个词语组合,判断所述词语组合是否包含在预设的词语集合中,若未包含在所述预设的词语集合中,则删除所述词语组合;
所述统计所述各个训练样本中的各个词语组合出现的次数,包括:
统计所述各个训练样本中的经过删除处理后的各个词语组合出现的次数。
6.根据权利要求3所述的方法,其特征在于,还包括:
从所述各个训练样本中的各个词语组合中选取所述各个训练样本的至少一个样本词序列;
根据所述N-gram语言模型,确定所述各个训练样本的各个样本词序列的概率分数值;
根据所述各个训练样本的各个样本词序列的概率分数值以及所述各个训练样本中包含的样本词序列的个数,确定所述各个训练样本的平均概率分数值和概率分数标准差值;
分别按照所述各个训练样本的平均概率分数值和概率分数标准差值,对所述各个训练样本进行排序;
根据排序结果,确定对所述平均概率分数值进行归一化处理的第一函数公式,并确定对所述概率分数标准差值进行归一化处理的第二函数公式;
所述对所述平均概率分数值进行归一化处理,包括:
根据所述第一函数公式,对所述平均概率分数值进行归一化处理;
所述对所述概率分数标准差值进行归一化处理,包括:
根据所述第二函数公式,对所述概率分数标准差值进行归一化处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于创新先进技术有限公司,未经创新先进技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710182218.7/1.html,转载请声明来源钻瓜专利网。