[发明专利]文本分块方法、装置、计算机设备和存储介质在审
申请号: | 202011578512.8 | 申请日: | 2020-12-28 |
公开(公告)号: | CN112733545A | 公开(公告)日: | 2021-04-30 |
发明(设计)人: | 刘德华;潘浩;陈志华;廖梦萍 | 申请(专利权)人: | 中电金信软件有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F16/33;G06N3/04;G06N3/08 |
代理公司: | 北京华进京联知识产权代理有限公司 11606 | 代理人: | 朱五云 |
地址: | 100192 北京市海淀区西*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 分块 方法 装置 计算机 设备 存储 介质 | ||
本申请涉及一种文本分块方法、装置、计算机设备和存储介质,包括:获取待分块文本的至少两个待处理文本块;获取至少两个待处理文本块对应的语义连贯度得分和语义相似度得分;基于语义连贯度得分和语义相似度得分所分别对应的得分权重,确定至少两个待处理文本块对应的语义关联度值;当语义关联度值超过预设阈值时,对至少两个待处理文本块进行合并,得到合并文本块;基于合并文本块对待分块文本进行操作,得到目标文本,实现了根据语义关联度值,对已分块的至少两个待处理文本块进行合并,使得归属于不同文本块的文本信息可以被划分在语义相近的文本块中,提高文本块中语义的一致性,也有效提升文本分块的准确度和合理性。
技术领域
本申请涉及计算机技术领域,特别是涉及一种文本分块方法、装置、计算机设备和存储介质。
背景技术
随着文本处理技术的不断发展,为了提高处理效率,在对文本进行正式处理前,可以对文本进行分块处理,得到多个文本块。
在现有技术中,往往会根据文本中出现的标点对文本进行分块。然而,根据标点符号进行分块容易导致文本块的语义难以统一,例如不同语义的文本信息被分在同一文本块中,或者相同语义的文本信息被分在两个不同的文本块中。
发明内容
基于此,有必要针对上述技术问题,提供一种文本分块方法、装置、计算机设备和存储介质。
本申请实施例提供一种文本分块方法,所述方法包括:
获取待分块文本的至少两个待处理文本块;
获取所述至少两个待处理文本块对应的语义连贯度得分和语义相似度得分;
基于所述语义连贯度得分和所述语义相似度得分所分别对应的得分权重,确定所述至少两个待处理文本块对应的语义关联度值;
当所述语义关联度值超过预设阈值时,对所述至少两个待处理文本块进行合并,得到合并文本块;
基于所述合并文本块对所述待分块文本进行操作,得到目标文本。
在其中一个实施例中,所述基于所述合并文本块对所述待分块文本进行操作,得到目标文本,包括:
将所述合并文本块作为待处理文本块替换对应的至少两个待处理文本块,并确定当前的待处理文本块的总数;
判断所述总数是否小于数量阈值;
若是,将当前的待处理文本块,作为所述待分块文本对应的分块结果,得到目标文本;
若否,返回获取待分块文本的至少两个待处理文本块的步骤,直到任意两个待处理文本块的语义关联度值均小于所述预设阈值时,根据当前的待处理文本块,得到目标文本。
在其中一个实施例中,所述获取待分块文本的至少两个待处理文本块,包括:
从待分块文本对应的至少两个待处理文本块中,获取至少两个待处理文本块;
对获取的所述至少两个待处理文本块进行分组,得到至少一个文本块组合;属于同一文本块组合中的至少两个待处理文本块在位置上依次相邻。
在其中一个实施例中,所述获取所述至少两个待处理文本块对应的语义连贯度得分和语义相似度得分,包括:
确定出在位置上依次相邻的所述至少两个待处理文本块之间的语义连贯度,输出语义连贯度得分;
以及,
确定出在位置上依次相邻的所述至少两个待处理文本块之间的语义相似度,输出语义相似度得分。
在其中一个实施例中,所述语义关联度值为同一文本块组合中所有待处理文本块对应的语义关联度值;所述当所述语义关联度值超过预设阈值时,对所述至少两个目标待处理文本块进行合并,得到合并文本块,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中电金信软件有限公司,未经中电金信软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011578512.8/2.html,转载请声明来源钻瓜专利网。