[发明专利]一种文本编辑方法及系统有效
申请号: | 202110540630.8 | 申请日: | 2021-05-18 |
公开(公告)号: | CN113139368B | 公开(公告)日: | 2023-04-11 |
发明(设计)人: | 喻纯;史元春;杨欢 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F40/166 | 分类号: | G06F40/166;G06F40/284;G06N3/08 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 周初冬 |
地址: | 10008*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本编辑 方法 系统 | ||
本发明提供了一种文本编辑方法及系统,该方法为:将用户用于编辑目标文本的语音内容转换为待处理文本,并对待处理文本进行分词处理得到相应的分词结果;将分词结果作为预设的意图识别模型的输入进行意图识别,得到待处理文本对应的意图识别结果;基于预设的序列标注模型对分词结果进行处理,得到与意图识别结果对应的关键信息;利用意图识别结果和与其对应的关键信息,对目标文本进行文本编辑处理。结合意图识别模型和序列标注模型,确定得到用户的语音内容中的意图识别结果和与其对应的关键信息,并基于意图识别结果和关键信息对目标文本进行文本编辑处理,提高对自然语言的处理准确率,以实现将语音交互应用于文本编辑。
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种文本编辑方法及系统。
背景技术
随着科学技术的发展,智能手机和平板电脑等智能终端逐渐被广泛应用。由于语言的信息传递效率较高,语音交互在诸如文本编辑等复杂任务的处理上有较大的优势。
但是,目前由于对自然语言进行处理的方式的准确性较低,用户与智能终端的交互方式主要以手势交互为主,而语音交互仅限于智能终端的语音助手这一场景,因此如何将语音交互应用于文本编辑任务是目前亟需待解决的问题。
发明内容
有鉴于此,本发明实施例提供一种文本编辑方法及系统,以实现将语音交互应用于文本编辑任务这一目的。
为实现上述目的,本发明实施例提供如下技术方案:
本发明实施例第一方面公开一种文本编辑方法,所述方法包括:
将用户用于编辑目标文本的语音内容转换为待处理文本,并对所述待处理文本进行分词处理得到相应的分词结果;
将所述分词结果作为预设的意图识别模型的输入进行意图识别,得到所述待处理文本对应的意图识别结果,所述意图识别结果为插入意图、删除意图、替换意图或文本输入意图,所述意图识别模型由基于多条第一样本数据训练第一指定模型得到,每条所述第一样本数据为经过分词处理和意图标注后的样本数据;
基于预设的序列标注模型对所述分词结果进行处理,得到与所述意图识别结果对应的关键信息,所述序列标注模型由基于多条第二样本数据训练第二指定模型得到,每条所述第二样本数据为经过分词处理和标签标注处理后的样本数据;
利用所述意图识别结果和与其对应的所述关键信息,对所述目标文本进行文本编辑处理。
优选的,所述基于预设的序列标注模型对所述分词结果进行处理,得到与所述意图识别结果对应的关键信息,包括:
将所述分词结果作为预设的序列标注模型的输入进行标签预测,得到所述分词结果中每个文本单元的标签,所述文本单元至少包括一个连续的汉字,所述文本单元的标签用于指示所述文本单元为待输入对象、待删除对象、被替换对象、替换对象、定位对象或待插入对象;
确定与所述意图识别结果对应的所述标签所对应的所述文本单元为关键信息。
优选的,所述第一指定模型为最大熵模型,基于多条第一样本数据训练所述第一指定模型得到所述意图识别模型的过程,包括:
对用于训练最大熵模型的样本数据进行分词处理和意图标注,得到多条第一样本数据;
确定所述最大熵模型的目标函数;
利用所述多条第一样本数据和所述最大熵模型的目标函数,训练所述最大熵模型直至所述最大熵模型收敛,得到意图识别模型。
优选的,所述第二指定模型为条件随机场模型,基于多条第二样本数据训练所述第二指定模型得到所述序列标注模型的过程,包括:
对用于训练条件随机场模型的样本数据进行分词处理和标签标注,得到多条第二样本数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110540630.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:球形元件提升装置
- 下一篇:一种基于手势的文本处理方法及系统