[发明专利]文本分割方法、装置、设备及存储介质在审
申请号: | 201910499932.8 | 申请日: | 2019-06-10 |
公开(公告)号: | CN110222654A | 公开(公告)日: | 2019-09-10 |
发明(设计)人: | 丁宇辰;刘凯 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06F17/24;G06F17/27 |
代理公司: | 北京市铸成律师事务所 11313 | 代理人: | 杨瑾瑾;陈建民 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本分割 句子 存储介质 文本 关联度 分割 | ||
1.一种文本分割方法,其特征在于,包括:
针对第一文本中的每个句子间隔,分别确定所述句子间隔的前句与后句的关联度;
根据所述关联度确定所述句子间隔是否为文本分割点;
在所述句子间隔是文本分割点的情况下,在所述句子间隔的位置分割所述第一文本。
2.根据权利要求1所述的方法,其特征在于,所述确定所述句子间隔的前句与后句的关联度,包括:
根据所述前句与所述后句的语义关联、所述前句及所述后句的句式结构以及所述后句的引导词中的至少一项,确定所述句子间隔的前句与后句的关联度。
3.根据权利要求2所述的方法,其特征在于,所述根据所述前句与所述后句的语义关联、所述前句及所述后句的句式结构以及所述后句的引导词中的至少一项,确定所述句子间隔的前句与后句的关联度,包括:
确定所述前句与所述后句的语义关联对应的语义关联矩阵,确定所述前句及所述后句的句式结构对应的句式矩阵,并确定所述后句的引导词对应的引导词矩阵;
对所述语义关联矩阵、所述句式矩阵及所述引导词矩阵分别进行线性变换;
将所述线性变换的结果组合成所述前句与后句的关联信息向量;
将所述关联信息向量输入预先训练的关联度预测模型,得到所述前句与后句的关联度。
4.根据权利要求3所述的方法,其特征在于,所述确定所述前句与所述后句的语义关联对应的语义关联矩阵,包括:
对所述前句中的词对应的词向量进行计算,得到所述前句的语义表示矩阵;并对所述后句中的词对应的词向量进行计算,得到所述后句的语义表示矩阵;
将所述前句的语义表示矩阵与所述后句的语义表示矩阵相乘,得到所述前句与所述后句的语义关联对应的语义关联矩阵。
5.根据权利要求4所述的方法,其特征在于,所述计算的方式为:采用双向长短期记忆模型、词袋模型或基于转换器的双向编码表示模型进行计算。
6.根据权利要求3所述的方法,其特征在于,所述确定所述前句及所述后句的句式结构对应的句式矩阵,包括:
采用预先设计的句式模板,分别确定所述前句的句式信息及所述后句的句式信息;
根据所述前句的句式信息生成所述前句的句式向量,并根据所述后句的句式信息生成所述后句的句式向量;
将所述前句的句式向量与所述后句的句式向量组合,得到所述前句及所述后句的句式结构对应的句式矩阵。
7.根据权利要求3所述的方法,其特征在于,所述确定所述后句的引导词对应的引导词矩阵,包括:
分别确定所述后句中的前N个词对应的词向量,所述N为整数;
将确定的所述词向量拼接为所述后句的引导词对应的引导词矩阵。
8.根据权利要求1至7任一所述的方法,其特征在于,所述针对第一文本中的每个句子间隔,分别确定所述句子间隔的前句与后句的关联度之前,还包括:
采用预先设置的列表模板,识别原始文本中的列表文本;
将所述原始文本中的列表文本分割出去,将所述原始文本中剩余的部分作为所述第一文本。
9.一种关联度预测模型的训练方法,其特征在于,所述方法包括:
生成两个相邻样本句子的关联信息向量,并获取所述两个相邻样本句子的实际关联度;
将所述关联信息向量输入关联度预测模型;
将所述关联度预测模型输出的预测关联度与所述实际关联度进行比较,根据比较结果调整所述关联度预测模型的参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910499932.8/1.html,转载请声明来源钻瓜专利网。