[发明专利]文本数据处理方法、装置、存储介质及计算机设备有效

申请号：	202110226928.1	申请日：	2021-03-01
公开（公告）号：	CN112988965B	公开（公告）日：	2022-03-08
发明（设计）人：	张哲旸;季成晖;卢俊之	申请（专利权）人：	腾讯科技（深圳）有限公司
主分类号：	G06F16/33	分类号：	G06F16/33;G06F40/194;G06F40/279;G06K9/62
代理公司：	深圳翼盛智成知识产权事务所(普通合伙) 44300	代理人：	刘自丽
地址：	518057 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本数据处理方法装置存储介质计算机设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例公开了一种文本数据处理方法、装置、存储介质及计算机设备，方法包括：获取第一文本数据的第一语种信息以及第二文本数据的第二语种信息；确定第一文本数据与第一语种信息对应的第一读音数据以及确定第二文本数据与第二语种信息对应的第二读音数据；对第一读音数据进行音素分析，得到第一音素序列；对第二读音数据进行音素分析，得到第二音素序列；计算第一音素序列与第二音素序列的第一音素相似度；根据第一音素相似度确定第一文本数据与第二文本数据的相似度。该方法可以完善自然语言处理领域中文本数据之间相似度计算的方案，提升了文本数据处理的准确性。

技术领域

本发明涉及数据处理技术领域，具体涉及一种文本数据处理方法、装置、存储介质及计算机设备。

背景技术

自然语言处理(Natural Language Processing，NLP)是人工智能(ArtificialIntelligence，AI)领域的一个重要分支。其可以详细分为自然语言生成、文本分类、信息抽取、机器翻译等范畴。

在自然语言处理过程中经常需要对文本数据之间的关系进行研究和判定，现有的文本数据处理方法考虑并不完善，在部分情形下，无法对文本数据之间的关系作出准确的判断。

发明内容

本发明实施例提供一种数据处理方法、装置、存储介质及计算机设备，该方法可以对文本数据的读音音素进行提取，并结合读音音素的相似度确定文本数据之间的关系，提高了文本数据处理的准确性。

本申请第一方面提供一种文本数据处理方法，包括：

获取第一文本数据的第一语种信息以及第二文本数据的第二语种信息；

确定所述第一文本数据与所述第一语种信息对应的第一读音数据以及确定所述第二文本数据与所述第二语种信息对应的第二读音数据；

对所述第一读音数据进行音素分析，得到第一音素序列；

对所述第二读音数据进行音素分析，得到第二音素序列；