[发明专利]文本规整方法、装置、电子设备和存储介质在审
申请号: | 202010731385.4 | 申请日: | 2020-07-27 |
公开(公告)号: | CN111832248A | 公开(公告)日: | 2020-10-27 |
发明(设计)人: | 戚婷;万根顺;高建清;王智国;胡国平 | 申请(专利权)人: | 科大讯飞股份有限公司 |
主分类号: | G06F40/103 | 分类号: | G06F40/103;G06F40/253;G06F40/289;G06F40/30 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 程琛 |
地址: | 230088 安徽省*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 规整 方法 装置 电子设备 存储 介质 | ||
1.一种文本规整方法,其特征在于,包括:
确定待规整文本;
将所述待规整文本输入至文本规整模型,得到所述文本规整模型输出的所述待规整文本对应的已规整文本;
其中,所述文本规整模型是基于样本待规整文本、样本已规整文本,以及所述样本待规整文本中每一分词的样本编辑类型训练得到的;
所述文本规整模型用于确定所述待规整文本中每一分词的编辑类型,并基于所述待规整文本中是否包含编辑类型为插入类型的插入分词确定所述待规整文本的规整方式,基于所述规整方式对待规整文本进行规整。
2.根据权利要求1所述的文本规整方法,其特征在于,所述将所述待规整文本输入至文本规整模型,得到所述文本规整模型输出的所述待规整文本对应的已规整文本,具体包括:
将所述待规整文本输入至所述文本规整模型的编辑类型确定层,得到所述编辑类型确定层输出的所述待规整文本中每一分词的编辑类型;
将所述编辑类型为非插入类型的每一非插入分词及其编辑类型输入至所述文本规整模型的文本编辑层,得到所述文本编辑层输出的候选规整文本;
若所述待规整文本中存在编辑类型为插入类型的插入分词,则将每一插入分词和所述候选规整文本输入至所述文本规整模型的插入分词规整层,得到所述插入分词规整层输出的每一插入分词的规整结果;
将所述候选规整文本,或者,所述候选规整文本以及每一插入分词的规整结果输入至所述文本规整模型的文本整理层,得到所述文本整理层输出的所述已规整文本。
3.根据权利要求2所述的文本规整方法,其特征在于,所述将所述待规整文本输入至所述文本规整模型的编辑类型确定层,得到所述编辑类型确定层输出的所述待规整文本中每一分词的编辑类型,具体包括:
将所述待规整文本输入至所述编辑类型确定层的语义特征提取层,得到所述语义特征提取层输出的所述待规整文本中每一分词的语义特征;
将每一分词的语义特征输入至所述编辑类型确定层的序列标注层,得到所述序列标注层输出的每一分词的编辑类型。
4.根据权利要求3所述的文本规整方法,其特征在于,所述将每一插入分词和所述候选规整文本输入至所述文本规整模型的插入分词规整层,得到所述插入分词规整层输出的每一插入分词的规整结果,具体包括:
将任一插入分词的语义特征、所述候选规整文本的文本向量输入至所述插入分词规整层,得到所述插入分词规整层输出的所述任一插入分词的规整结果。
5.根据权利要求4所述的文本规整方法,其特征在于,所述将任一插入分词的语义特征和所述候选规整文本的文本向量输入至所述插入分词规整层,得到所述插入分词规整层输出的所述任一插入分词的规整结果,具体包括:
若任一插入分词的编辑类型为保留后插入,则将所述任一插入分词的语义特征和文本向量,以及所述候选规整文本中对应所述任一插入分词所在位置之前每一分词的文本向量输入至所述插入分词规整层,得到所述插入分词规整层输出的所述任一插入分词的规整结果;
若任一插入分词的编辑类型为删除后插入,则将所述任一插入分词的语义特征,以及所述候选规整文本中对应所述任一插入分词所在位置之前每一分词的文本向量输入至所述插入分词规整层,得到所述插入分词规整层输出的所述任一插入分词的规整结果。
6.根据权利要求1至5中任一项所述的文本规整方法,其特征在于,所述样本待规整文本中每一分词的样本编辑类型的获取方法包括:
将所述样本待规整文本和所述样本已规整文本对齐,得到样本对齐待规整文本和样本对齐已规整文本;
将所述样本对齐待规整文本和所述样本对齐已规整文本进行比对,得到所述样本待规整文本中每一分词的样本编辑类型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010731385.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种保密用润湿法两级碎纸装置及使用方法
- 下一篇:一种计轴复零操作的优化方法