[发明专利]文本数据处理方法、装置、存储介质及计算机设备有效
申请号: | 202110226928.1 | 申请日: | 2021-03-01 |
公开(公告)号: | CN112988965B | 公开(公告)日: | 2022-03-08 |
发明(设计)人: | 张哲旸;季成晖;卢俊之 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/194;G06F40/279;G06K9/62 |
代理公司: | 深圳翼盛智成知识产权事务所(普通合伙) 44300 | 代理人: | 刘自丽 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 数据处理 方法 装置 存储 介质 计算机 设备 | ||
本发明实施例公开了一种文本数据处理方法、装置、存储介质及计算机设备,方法包括:获取第一文本数据的第一语种信息以及第二文本数据的第二语种信息;确定第一文本数据与第一语种信息对应的第一读音数据以及确定第二文本数据与第二语种信息对应的第二读音数据;对第一读音数据进行音素分析,得到第一音素序列;对第二读音数据进行音素分析,得到第二音素序列;计算第一音素序列与第二音素序列的第一音素相似度;根据第一音素相似度确定第一文本数据与第二文本数据的相似度。该方法可以完善自然语言处理领域中文本数据之间相似度计算的方案,提升了文本数据处理的准确性。
技术领域
本发明涉及数据处理技术领域,具体涉及一种文本数据处理方法、装置、存储介质及计算机设备。
背景技术
自然语言处理(Natural Language Processing,NLP)是人工智能(ArtificialIntelligence,AI)领域的一个重要分支。其可以详细分为自然语言生成、文本分类、信息抽取、机器翻译等范畴。
在自然语言处理过程中经常需要对文本数据之间的关系进行研究和判定,现有的文本数据处理方法考虑并不完善,在部分情形下,无法对文本数据之间的关系作出准确的判断。
发明内容
本发明实施例提供一种数据处理方法、装置、存储介质及计算机设备,该方法可以对文本数据的读音音素进行提取,并结合读音音素的相似度确定文本数据之间的关系,提高了文本数据处理的准确性。
本申请第一方面提供一种文本数据处理方法,包括:
获取第一文本数据的第一语种信息以及第二文本数据的第二语种信息;
确定所述第一文本数据与所述第一语种信息对应的第一读音数据以及确定所述第二文本数据与所述第二语种信息对应的第二读音数据;
对所述第一读音数据进行音素分析,得到第一音素序列;
对所述第二读音数据进行音素分析,得到第二音素序列;
计算所述第一音素序列与所述第二音素序列的第一音素相似度;
根据所述第一音素相似度确定所述第一文本数据与所述第二文本数据的相似度。
本申请实施例第二方面提供一种模型训练方法,包括:
获取单语语料样本与文本对样本,所述单语语料样本为单一语种的文本数据构成的样本,所述文本对样本为读音音素相似的不同语种文本构成的样本;
使用所述单语语料样本对预设的文本数据处理模型进行预训练,得到预训练后的文本数据处理模型;
基于所述数据对样本对所述预训练后的文本数据处理模型进行微调,得到训练完成的文本数据处理模型。
相应的,本发明实施例第三方面提供一种文本数据处理装置,包括:
获取单元,用于获取第一文本数据的第一语种信息以及第二文本数据的第二语种信息;
第一确定单元,用于确定所述第一文本数据与所述第一语种信息对应的第一读音数据以及确定所述第二文本数据与所述第二语种信息对应的第二读音数据;
第一分析单元,用于对所述第一读音数据进行音素分析,得到第一音素序列;
第二分析单元,用于对所述第二读音数据进行音素分析,得到第二音素序列;
计算单元,用于计算所述第一音素序列与所述第二音素序列的第一音素相似度;
第二确定单元,用于根据所述第一音素相似度确定所述第一文本数据与所述第二文本数据的相似度。
在一些实施例中,所述文本数据处理装置还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110226928.1/2.html,转载请声明来源钻瓜专利网。