[发明专利]文本处理方法和装置、电子设备以及计算机可读存储介质在审
申请号: | 202011156091.X | 申请日: | 2020-10-26 |
公开(公告)号: | CN114492375A | 公开(公告)日: | 2022-05-13 |
发明(设计)人: | 刘嘉庆;李亚丽 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F40/279;G06F16/35 |
代理公司: | 北京市惠诚律师事务所 11353 | 代理人: | 刘子敬 |
地址: | 开曼群岛英属开曼群岛*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 处理 方法 装置 电子设备 以及 计算机 可读 存储 介质 | ||
本申请公开了一种文本处理方法和装置、电子设备以及计算机可读存储介质。该方法包括:获取包含多个句子的原始文本;根据原始文本中的各个句子之间的相似度将所述多个句子划分为至少两个段落,以生成分段文本;对于所生成的分段文本结合各个句子在所述分段文本中的位置信息进行话题聚类,并根据话题聚类结果对所述分段文本进行话题分割处理,以生成分话题文本。本申请实施例能够将时序上相近的句子划分为一段来确保句子在话题上的连贯性,继而针对分段文本进行话题聚类,并根据聚类结果对文本进行话题分割以生成分话题文本,从而自动地为用户提供按不同话题进行了话题分割整理后的文本,方便用户日后进行查找和阅读,提高了用户体验。
技术领域
本申请涉及文本处理技术领域,尤其涉及一种用于处理原始文本的文本处理方法和装置、电子设备以及计算机可读存储介质。
背景技术
随着社会的发展,人们越来越频繁地使用文字或语音进行各种记录操作,例如学生在课堂上记录笔记,职员记录开会的内容等等。在这样的情况下,人们记录的内容也越来越复杂,并且因此这样大段长篇记录的文字内容在日后进行整理和查找时都带来了很大的不便性。例如,在课堂记录笔记的情况下,通常学生只能随着上课时间的推移而记录教师口述的内容或在黑板上书写的内容,这反映在文字上通常会是流水账式的记录,但是在课后或期末复习时却需要根据本节课对应的教学大纲来进行查找或学习,因此,这时就难以从一大段流水账式的记录中找到自己需要的内容。
发明内容
本申请实施例提供一种文本处理方法和装置、电子设备以及计算机可读存储介质,以解决现有技术中对根据语音记录的原始文本进行主题整理效率低下的缺陷。
为达到上述目的,本申请实施例提供了一种文本处理方法,包括:
获取包含多个句子的原始文本;
根据原始文本中的各个句子之间的相似度将所述多个句子划分为至少两个段落,以生成分段文本;
对于所生成的分段文本结合各个句子在所述分段文本中的位置信息进行话题聚类,并根据话题聚类结果对所述分段文本进行话题分割处理,以生成分话题文本。
本申请实施例还提供了一种文本处理装置,包括:
第一获取模块,用于获取包含多个句子的原始文本;
第一分段模块,用于根据原始文本中的各个句子之间的相似度将所述多个句子划分为至少两个段落,以生成分段文本;
第一话题分割模块,用于对于所生成的分段文本结合各个句子在所述分段文本中的位置信息进行话题聚类,并根据话题聚类结果对所述分段文本进行话题分割处理,以生成分话题文本。
本申请实施例还提供了一种文本处理方法,包括:
获取包含多个句子的原始课堂记录;
根据原始课堂记录中的各个句子之间的相似度将所述多个句子划分为至少两个段落,以生成课堂记录分段文本;
对于所生成的课堂记录分段文本结合各个句子在所述课堂记录分段文本中的位置信息进行话题聚类,并根据话题聚类结果对所述课堂记录分段文本进行话题分割处理,以生成分话题文本。
本申请实施例还提供了一种文本处理方法,包括:
获取包含多个句子的会议记录;
根据会议记录中的各个句子之间的相似度将所述多个句子划分为至少两个段落,以生成分段文本;
对于所生成的分段文本结合各个句子在所述分段文本中的位置信息进行话题聚类,并根据话题聚类结果对所述分段文本进行议题分割处理,以生成分议题文本。
本申请实施例还提供了一种电子设备,包括:
存储器,用于存储程序;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011156091.X/2.html,转载请声明来源钻瓜专利网。