[发明专利]长文本的分段方法及装置、存储介质、电子装置有效
申请号: | 202110476650.3 | 申请日: | 2021-04-29 |
公开(公告)号: | CN113076720B | 公开(公告)日: | 2022-01-28 |
发明(设计)人: | 田维政;李昕城 | 申请(专利权)人: | 新声科技(深圳)有限公司 |
主分类号: | G06F40/137 | 分类号: | G06F40/137;G06F40/211;G06F16/35;G10L15/26;G06N3/04 |
代理公司: | 深圳智汇远见知识产权代理有限公司 44481 | 代理人: | 刘洁;牛悦涵 |
地址: | 518102 广东省深圳市宝安*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 分段 方法 装置 存储 介质 电子 | ||
1.一种长文本的分段方法,其特征在于,包括:
将源语音文档转换为文本文档;
将所述文本文档转换为向量序列,其中,所述向量序列包括词向量序列和句向量序列;
根据所述向量序列生成语篇树,其中,所述语篇树的每个叶子节点对应所述句向量序列的一个句向量,叶子节点的父节点对应下级至少两个叶子节点之间的连贯性关系,连贯性关系是上下句逻辑关系;
基于所述语篇树生成所述文本文档的段落分割点,并采用所述段落分割点对所述文本文档进行分段;
其中,基于所述语篇树生成所述文本文档的段落分割点,并采用所述段落分割点对所述文本文档进行分段包括:设置所述文本文档的句序列集合中每个句子的初始标签信息,生成标记数据集,其中,所述初始标签信息用于表征对应的句子是否为段落分割点;将所述标记数据集拆分为训练集,验证集,以及测试集;采用预设文本分段模型,基于拆分后的所述标记数据集和所述语篇树更新所述初始标签信息,输出有效句序列,其中,所述有效句序列中的每个句子关联一个有效分段标签;在所述有效句序列中选择指定句,并以所述指定句为分割点,对所述文本文档进行分段,其中,所述指定句的有效分段标签为段落分割点。
2.根据权利要求1所述的方法,其特征在于,根据所述句向量序列生成语篇树包括:
对所述句向量序列进行压缩和选择编码得到句状态序列,其中,所述句状态序列包括所有句子的状态序列向量;
在初始化堆栈中存储所述文本文档的词向量序列,递归循环以下步骤,直到所述初始化堆栈中的内容全部被提取出来,生成第一词状态向量序列:从所述初始化堆栈的顶部提取出一个词向量,并利用所述句状态序列中的状态序列向量计算该词向量的状态向量;
将所述第一词状态向量序列分割为第一序列和第二序列,基于所述第一序列与所述第二序列生成语篇树。
3.根据权利要求2所述的方法,其特征在于,基于所述第一序列与所述第二序列生成语篇树包括:
分别计算所述第一序列和所述第二序列的序列长度;
若所述第一序列和所述第二序列的序列长度小于或等于预设长度,采用分类器解析所述第一序列和所述第二序列之间的第一连贯性关系,将所述第一序列和所述第二序列分别输出为语篇树的第一叶子节点和第二叶子节点,所述第一连贯性关系输出为所述第一叶子节点和所述第二叶子节点的父节点;
若所述第一序列的序列长度大于预设长度,则将所述第一序列重新压进所述初始化堆栈,递归循环以下步骤,直到所述初始化堆栈中的内容全部被提取出来,生成第二词状态向量序列且序列长度小于或等于所述预设长度:从所述初始化堆栈的顶部提取出一个词向量,再利用所述句状态序列中的状态序列向量计算该词向量的状态向量;将所述第一序列拆分为第三序列和第四序列,采用分类器解析所述第一序列和所述第二序列之间的第一连贯性关系,以及所述第三序列与所述第四序列之间的第二连贯性关系,将所述第二序列输出为语篇树的第一叶子节点,将所述第三序列和所述第四序列分别输出为语篇树的第二叶子节点和第三叶子节点,所述第一连贯性关系输出为所述第一叶子节点,第二叶子节点和第三叶子节点的父节点,所述第二连贯性关系输出为所述第二叶子节点和所述第三叶子节点的父节点。
4.根据权利要求1所述的方法,其特征在于,采用预设文本分段模型和所述语篇树更新所述初始标签信息,输出有效句序列包括:
从所述句向量序列中提取每个句子的特征向量;
采用双向长期短期记忆BiLSTM网络基于所述语篇树提取所述特征向量的融合特征向量,其中,所述融合特征向量包括句子信息和语篇树关系信息的特征向量;
采用条件随机场模型基于所述融合特征向量对每个句子进行分段标签预测,并更新每个句子的所述初始标签信息,输出有效句序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新声科技(深圳)有限公司,未经新声科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110476650.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:幕墙的生成方法、装置及存储介质
- 下一篇:幕墙的预览方法、系统及存储介质