[发明专利]文本分块方法、装置、计算机设备和存储介质在审
申请号: | 202011578512.8 | 申请日: | 2020-12-28 |
公开(公告)号: | CN112733545A | 公开(公告)日: | 2021-04-30 |
发明(设计)人: | 刘德华;潘浩;陈志华;廖梦萍 | 申请(专利权)人: | 中电金信软件有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F16/33;G06N3/04;G06N3/08 |
代理公司: | 北京华进京联知识产权代理有限公司 11606 | 代理人: | 朱五云 |
地址: | 100192 北京市海淀区西*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 分块 方法 装置 计算机 设备 存储 介质 | ||
1.一种文本分块方法,其特征在于,所述方法包括:
获取待分块文本的至少两个待处理文本块;
获取所述至少两个待处理文本块对应的语义连贯度得分和语义相似度得分;
基于所述语义连贯度得分和所述语义相似度得分所分别对应的得分权重,确定所述至少两个待处理文本块对应的语义关联度值;
当所述语义关联度值超过预设阈值时,对所述至少两个待处理文本块进行合并,得到合并文本块;
基于所述合并文本块对所述待分块文本进行操作,得到目标文本。
2.根据权利要求1所述的方法,其特征在于,所述基于所述合并文本块对所述待分块文本进行操作,得到目标文本,包括:
将所述合并文本块作为待处理文本块替换对应的至少两个待处理文本块,并确定当前的待处理文本块的总数;
判断所述总数是否小于数量阈值;
若是,将当前的待处理文本块,作为所述待分块文本对应的分块结果,得到目标文本;
若否,返回获取待分块文本的至少两个待处理文本块的步骤,直到任意两个待处理文本块的语义关联度值均小于所述预设阈值时,根据当前的待处理文本块,得到目标文本。
3.根据权利要求1或2所述的方法,其特征在于,所述获取待分块文本的至少两个待处理文本块,包括:
从待分块文本对应的至少两个待处理文本块中,获取至少两个待处理文本块;
对获取的所述至少两个待处理文本块进行分组,得到至少一个文本块组合;属于同一文本块组合中的至少两个待处理文本块在位置上依次相邻。
4.根据权利要求3所述的方法,其特征在于,所述获取所述至少两个待处理文本块对应的语义连贯度得分和语义相似度得分,包括:
确定出在位置上依次相邻的所述至少两个待处理文本块之间的语义连贯度,输出语义连贯度得分;
以及,
确定出在位置上依次相邻的所述至少两个待处理文本块之间的语义相似度,输出语义相似度得分。
5.根据权利要求3所述的方法,其特征在于,所述语义关联度值为同一文本块组合中所有待处理文本块对应的语义关联度值;所述当所述语义关联度值超过预设阈值时,对所述至少两个目标待处理文本块进行合并,得到合并文本块,包括:
针对所述语义关联度值超过预设阈值的文本块组合,对文本块组合中的所有待处理文本块进行合并。
6.根据权利要求5所述的方法,其特征在于,在所述针对所述语义关联度值超过预设阈值的文本块组合,对文本块组合中的所有待处理文本块进行合并的步骤之前,所述方法还包括:
若存在包含相同待处理文本块的至少两个目标文本块组合,对所述至少两个目标文本块组合中相同的待处理文本块去重。
7.根据权利要求6所述的方法,其特征在于,所述对所述至少两个目标文本块组合中相同的待处理文本块去重,包括:
根据各个目标文本块组合对应的语义关联度值,确定语义关联度值小于最高语义关联度值的待去重文本块组合;
将所述待去重文本块组合中相同的待处理文本块删除。
8.根据权利要求1所述的方法,其特征在于,还包括:
获取至少两个样本文本块和所述至少两个样本文本块对应的关联度标签;
确定所述至少两个样本文本块对应的语义连贯度得分,以及所述至少两个样本文本块对应的语义相似度得分;
根据所述语义连贯度得分、语义相似度得分和各自对应的得分权重,确定所述至少两个样本文本块的预测语义关联度值;
基于所述预测语义关联度值和所述关联度标签对第一神经网络模型、第二神经网络模型和所述各自对应的得分权重进行联合训练,得到训练好的语义连贯度模型、语义相似度模型和得分权重;
其中,所述语义连贯度模型用于确定输入到所述语义连贯度模型的至少两个待处理文本块对应的语义连贯度得分,所述语义相似度模型用于确定输入到所述语义相似度模型的至少两个待处理文本块对应的语义相似度得分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中电金信软件有限公司,未经中电金信软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011578512.8/1.html,转载请声明来源钻瓜专利网。