[发明专利]文本扩充方法、装置、电子设备及可读存储介质在审
申请号: | 201911277446.8 | 申请日: | 2019-12-12 |
公开(公告)号: | CN111027312A | 公开(公告)日: | 2020-04-17 |
发明(设计)人: | 黄晓萌;安旭;王溪;刘志恒 | 申请(专利权)人: | 中金智汇科技有限责任公司 |
主分类号: | G06F40/253 | 分类号: | G06F40/253;G06F40/289;G06F40/247 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 唐正瑜 |
地址: | 100000 北京市北京经*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 扩充 方法 装置 电子设备 可读 存储 介质 | ||
本申请提供一种文本扩充方法、装置、电子设备及可读存储介质,包括:对目标文本进行依存语法分析,获得所述目标文本的树形结构,其中,所述树形结构包括能组成所述目标文本的多个分词,所述多个分词根据所述依存语法划分在所述树形结构的多个层;根据所述树形结构的每层的分词与该层的头节点的相对位置,对每层的分词进行分组,获得至少一个分词词组;对包括有分词词组的树形结构进行文本生成,获得所述目标文本对应的多个扩充文本。由于本申请是基于分词词组来生成扩充文本,而分词词组来自于对目标文本本身的多个分词的划分,因此,本申请实施例提供的文本扩充方法与现有技术相比,受文本长度或复杂度的影响较小,相对时间复杂度较低。
技术领域
本申请涉及语法分析领域,具体而言,涉及一种文本扩充方法、装置、电子设备及可读存储介质。
背景技术
在进行样本训练时,常常会存在样本短缺或样本不均衡的问题,传统的扩充样本的方法包括基于类标关系对短文本进行扩充,或循环扩充训练集辅助计算机文本分类任务,然而上述的方法受限于文本长度或复杂度、相对时间复杂度较高。
发明内容
本申请实施例的目的在于提供一种文本扩充方法、装置、电子设备及可读存储介质,用以改善现有技术受限于文本长度或复杂度、相对时间复杂度较高的问题。
第一方面,本申请实施例提供了一种文本扩充方法,所述方法包括:对目标文本进行依存语法分析,获得所述目标文本的树形结构,其中,所述树形结构包括能组成所述目标文本的多个分词,所述多个分词根据所述依存语法划分在所述树形结构的多个层;根据所述树形结构的每层的分词与该层的头节点的相对位置,对每层的分词进行分组,获得至少一个分词词组;对包括有分词词组的树形结构进行文本生成,获得所述目标文本对应的多个扩充文本。
在上述的实施方式中,先对目标文本进行依存语法分析获得目标文本的树形结构,然后对于树形结构每层的分词与该层的头节点的相对位置,获得至少一个分词词组,随后对包括有分词词组的树形结构生成文本,获得目标文本的多个扩充文本,由于本申请是基于分词词组来生成扩充文本,而分词词组来自于对目标文本本身的多个分词的划分,因此,本申请实施例提供的文本扩充方法与现有技术相比,受文本长度或复杂度的影响较小,相对时间复杂度较低。
在一个可能的设计中,所述对包括有分词词组的树形结构进行文本生成,获得所述目标文本对应的多个扩充文本,包括:对包括有分词词组的树形结构进行文本生成,且在文本生成过程中遇到分词词组时,利用所述分词词组对应的节点替换至少两个分词分别对应的至少两个节点,其中,所述分词词组为所述至少两个分词组成的分词词组,所述分词词组对应的节点中包括由所述至少两个分词排列组合形成的至少两个排列组合结果;生成包括有排列组合结果的组合文本;展开所述组合文本,获得所述目标文本对应的多个扩充文本。
在上述的实施方式中,在利用分词词组对应的一个节点替换掉至少两个分词分别对应的节点,简化了树形结构的同时保留了至少两个分词对应的多个排列组合结果,在能够尽可能多的扩充文本的同时,降低了文本生成过程的复杂程度。
在一个可能的设计中,所述根据所述树形结构的每层的分词与该层的头节点的相对位置,对每层的分词进行分组,包括:确定处于同一层,且与所述头节点的相对方位相同的至少两个分词属于同一个分词词组。
在上述的实施方式中,可以将同一层的多个分词中与同一头节点的相对方位相同的分词组成同一分词词组。
在一个可能的设计中,所述多个分词中的每个分词均标记有表征对应分词在所述目标文本的原始位置的序号;所述对包括有分词词组的树形结构进行文本生成,包括:按照所述树形结构从底层到顶层的顺序进行文本生成,在所述文本生成过程中按照所述每个分词的序号大小进行分词位置的选择。
在上述的实施方式中,在进行文本生成的过程中,可以按照从底层到顶层的顺序不断生成,并且按照每个分词在目标文本的原始位置的序号来确定分词位置的选择。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中金智汇科技有限责任公司,未经中金智汇科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911277446.8/2.html,转载请声明来源钻瓜专利网。