[发明专利]一种文本处理方法、系统、设备及介质有效
申请号: | 202111008531.1 | 申请日: | 2021-08-31 |
公开(公告)号: | CN113723086B | 公开(公告)日: | 2023-09-05 |
发明(设计)人: | 李超;朱昱锦;徐亮 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F40/211;G06F40/30;G10L15/26 |
代理公司: | 上海汉之律师事务所 31378 | 代理人: | 冯华 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 处理 方法 系统 设备 介质 | ||
1.一种文本处理方法,其特征在于,所述方法包括以下步骤:
获取第一目标对象与第二目标对象形成的音频数据,并对所述音频数据进行识别,生成多个原始识别文本;
将所述多个原始识别文本进行合并,形成合并文本,以及对所述合并文本中的每个文本字符进行序号标记,并以区间形式记录每个原始识别文本在所述合并文本中的开始序号和结束序号,得到每个原始识别文本的序号区间;
关联所有原始识别文本的序号区间,形成目标字典;
从所述合并文本中随机截取部分文本或全部文本进行目标文本识别,并在完成目标文本识别后,分别确定截取文本的开始序号和结束序号在所述目标字典中的区间位置,以及根据所述截取文本的区间位置确定所述截取文本横跨原始识别文本的文本段落数量;
将所述文本段落数量与预设阈值进行比较,并根据比较结果对所述截取文本进行段落切分,获取对应的段落切分结果;根据比较结果对所述截取文本进行段落切分,获取对应的段落切分结果的过程包括:
若所述文本段落数量大于等于第一阈值,则根据所述截取文本中包含的完整原始识别文本来对所述截取文本进行切分,并将切分后的若干个文本段落作为对应的段落切分结果;
若所述文本段落数量等于第二阈值,则对所述截取文本添加标记符,并利用所添加的标记符来对所述截取文本进行切分,并将切分后的若干个文本段落作为对应的段落切分结果;
若所述文本段落数量等于第三阈值,则不对所述截取文本进行切分,并将所述截取文本直接作为段落切分结果;
其中,所述第一阈值大于所述第二阈值,所述第二阈值大于所述第三阈值。
2.根据权利要求1所述的文本处理方法,其特征在于,对所述截取文本进行目标文本识别的过程包括:
获取与所述合并文本处于相同场景下的参考文本;
对所述参考文本进行词性标注,获取所述参考文本中的名词和代词,以及对所述截取文本进行词性标注,获取所述截取文本中的名词和代词;
利用依存句法分析方法从所述参考文本中的名词和代词中抽取出所述参考文本中的实体,作为参考实体;以及利用依存句法分析方法从所述截取文本中的名词和代词中抽取出所述截取文本中的实体,作为待比对实体;
计算所述参考实体与所述待比对实体的相似度,并将计算出的相似度结果与预设相似度阈值进行比对;若所计算出的相似度大于等于预设相似度阈值,则认为所述截取文本中存在目标文本;若所计算出的相似度小于预设相似度阈值,则认为所述截取文本中不存在目标文本。
3.根据权利要求1所述的文本处理方法,其特征在于,若所述文本段落数量等于第二阈值,则对所述截取文本进行切分的过程包括:
若所述文本段落数量等于第二阈值,则利用预设的标记符连接所述截取文本横跨的每个原始识别文本,得到对应的连接文本;
在所述截取文本中的每个字符后面添加所述标记符,并将添加标记符后的文本记为标记文本;其中,每个标记文本中至少包括一个标记符;
对所述截取文本中的倒数第二个字符完成所述标记符的添加后,判断是否存在某个标记文本为所述连接文本的子串;若存在某个标记文本为所述连接文本的子串,则通过所述标记符对所述截取文本进行切分,并将切分后的若干个文本段落作为对应的段落切分结果。
4.根据权利要求1所述的文本处理方法,其特征在于,所述对所述音频数据进行识别,生成多个原始识别文本的过程包括:
对所述音频数据进行特征提取;
利用预先训练的声学模型和语言模型对所提取出的音频特征数据进行解码,得到对应的 识别文本;
根据所述第一目标对象和/或所述第二目标对象对话时的停顿时间,将对应的识别文本分为多个原始识别文本。
5.根据权利要求1至4中任一所述的文本处理方法,其特征在于,所述目标文本包括不符合目标场景要求的违规文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111008531.1/1.html,转载请声明来源钻瓜专利网。