[发明专利]一种文本编辑方法及系统有效
申请号: | 202110540630.8 | 申请日: | 2021-05-18 |
公开(公告)号: | CN113139368B | 公开(公告)日: | 2023-04-11 |
发明(设计)人: | 喻纯;史元春;杨欢 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F40/166 | 分类号: | G06F40/166;G06F40/284;G06N3/08 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 周初冬 |
地址: | 10008*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本编辑 方法 系统 | ||
1.一种文本编辑方法,其特征在于,所述方法包括:
将用户用于编辑目标文本的语音内容转换为待处理文本,并对所述待处理文本进行分词处理得到相应的分词结果;
将所述分词结果作为预设的意图识别模型的输入进行意图识别,得到所述待处理文本对应的意图识别结果,所述意图识别结果为插入意图、删除意图、替换意图或文本输入意图,所述意图识别模型由基于多条第一样本数据训练第一指定模型得到,每条所述第一样本数据为经过分词处理和意图标注后的样本数据;
基于预设的序列标注模型对所述分词结果进行处理,得到与所述意图识别结果对应的关键信息,所述序列标注模型由基于多条第二样本数据训练第二指定模型得到,每条所述第二样本数据为经过分词处理和标签标注处理后的样本数据;
利用所述意图识别结果和与其对应的所述关键信息,对所述目标文本进行文本编辑处理;
所述基于预设的序列标注模型对所述分词结果进行处理,得到与所述意图识别结果对应的关键信息,包括:
将所述分词结果作为预设的序列标注模型的输入进行标签预测,得到所述分词结果中每个文本单元的标签,所述文本单元至少包括一个连续的汉字,所述文本单元的标签用于指示所述文本单元为待输入对象、待删除对象、被替换对象、替换对象、定位对象或待插入对象;
确定与所述意图识别结果对应的所述标签所对应的所述文本单元为关键信息。
2.根据权利要求1所述的方法,其特征在于,所述第一指定模型为最大熵模型,基于多条第一样本数据训练所述第一指定模型得到所述意图识别模型的过程,包括:
对用于训练最大熵模型的样本数据进行分词处理和意图标注,得到多条第一样本数据;
确定所述最大熵模型的目标函数;
利用所述多条第一样本数据和所述最大熵模型的目标函数,训练所述最大熵模型直至所述最大熵模型收敛,得到意图识别模型。
3.根据权利要求1所述的方法,其特征在于,所述第二指定模型为条件随机场模型,基于多条第二样本数据训练所述第二指定模型得到所述序列标注模型的过程,包括:
对用于训练条件随机场模型的样本数据进行分词处理和标签标注,得到多条第二样本数据;
利用所述多条第二样本数据,训练所述条件随机场模型直至所述条件随机场模型收敛,得到序列标注模型。
4.根据权利要求1所述的方法,其特征在于,所述利用所述意图识别结果和与其对应的所述关键信息,对所述目标文本进行文本编辑处理,包括:
若所述意图识别结果为插入意图,基于与所述意图识别结果对应的所述关键信息,对所述目标文本进行信息插入处理;
若所述意图识别结果为删除意图,基于与所述意图识别结果对应的所述关键信息,对所述目标文本进行信息删除处理;
若所述意图识别结果为替换意图,基于与所述意图识别结果对应的所述关键信息,对所述目标文本进行信息替换处理;
若所述意图识别结果为文本输入意图,基于与所述意图识别结果对应的所述关键信息,对所述目标文本进行信息输入处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110540630.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:球形元件提升装置
- 下一篇:一种基于手势的文本处理方法及系统