[发明专利]文本识别方法、装置及设备在审
申请号: | 202110535189.4 | 申请日: | 2021-05-17 |
公开(公告)号: | CN113128241A | 公开(公告)日: | 2021-07-16 |
发明(设计)人: | 贾伟;汪安辉 | 申请(专利权)人: | 口碑(上海)信息技术有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/30;G06F40/129;G06K9/34 |
代理公司: | 北京中强智尚知识产权代理有限公司 11448 | 代理人: | 黄耀威 |
地址: | 200135 上海市浦东新区民生路11*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 识别 方法 装置 设备 | ||
本申请公开了一种文本识别方法、装置及设备,涉及互联网技术领域,针对待识别文本中变形的异常信息,能够结合机器模型翻译为原始文本后再进行异常信息识别,在保证识别结果准确的同时,提高异常信息识别的灵活性。其中方法包括:获取待识别文本经过字符级切分所形成的多个字符元素;针对每个字符元素进行编码处理,形成字符元素的音形码向量;将所述字符元素的音形码向量输入至预先构建的识别模型,得到所述待识别文本映射的原始文本,所述识别模型具有对音形码向量中变形信息进行语义翻译的功能;利用预先构建的敏感词库,判定所述待识别文本映射的原始文本中是否包含异常信息。
技术领域
本申请涉及互联网技术领域,尤其是涉及到一种文本识别方法、装置及设备。
背景技术
随着互联网迅猛发展,信息过载的问题日益突出。网络中出现的词语越来越多,一旦这些词语中包含有害、敏感、非法等异常信息,如何有效合理的将此类异常信息从正常文本中识别出来,对于网络监管、净化网络具有重要意义。
相关技术中,互联网平台中的产品都要接受相关部门的监管,使得线上不得出现异常文本,通常情况下,可以在建立大量语料库的基础上,使用机器翻译模型综合学习和训练文本后,得到文本的词向量,实现文本互译,以对文本的词向量进行敏感字符的匹配,从而识别文本中是否存在异常信息。然而,由于互联网平台中生成的文本通常具备连续性及可读性,使得对机器翻译过程的训练语料上下文关联性要求较高,需要考虑的异常信息场景较为复杂,而文本内容监控场景中异常信息的连续性及相关性较弱,使得机器翻译模型的编译过程很难将异常信息与正常文本相结合来识别,影响异常信息的识别结果。
发明内容
有鉴于此,本申请提供了一种文本识别方法、装置及设备,主要目的在于解决现有技术中机器翻译模型的编译过程很难将异常信息与正常文本相结合来识别,影响异常信息的识别结果的问题。
根据本申请的第一个方面,提供了一种文本识别方法,该方法包括:
获取待识别文本经过字符级切分所形成的多个字符元素;
针对每个字符元素进行编码处理,形成字符元素的音形码向量;
将所述字符元素的音形码向量输入至预先构建的识别模型,得到所述待识别文本映射的原始文本,所述识别模型具有对音形码向量中变形信息进行语义翻译的功能;
利用预先构建的敏感词库,判定所述待识别文本映射的原始文本中是否包含异常信息。
进一步地,所述针对每个字符元素进行编码处理,形成字符元素的音形码向量,具体包括:
获取字符元素映射的变形描述特征;
针对每个字符元素对所述字符元素映射的变形描述特征进行编码处理,得到每个字符元素在不同变形维度上的向量表示;
按照预设拼接顺序,将所述每个字符元素在不同变形维度上的向量表示进行拼接,形成字符元素的音形码向量。
进一步地,所述获取字符元素映射的变形描述特征,具体包括:
利用预先针对敏感词设置的变形识别算法,提取敏感词在应用场景中存在各种变形模式;
根据所述敏感词在应用场景中存在的各种变形模式,获取字符元素映射的变形描述特征。
进一步地,所述变形维度至少包括形变维度、音变维度以及字形相似维度,所述音形码向量的组成至少包括字符元素的词向量、字符元素的音形向量以及字符元素的图形向量,所述针对每个字符元素对所述字符元素映射的变形描述特征进行编码处理,得到每个字符元素在不同变形维度上的向量表示,具体包括:
利用每个字符元素的文字表示对每个字符元素进行语义编码,得到字符元素的词向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于口碑(上海)信息技术有限公司,未经口碑(上海)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110535189.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:信息推荐的方法、装置、设备及存储介质
- 下一篇:防凝露空气调节装置