[发明专利]一种文本处理方法和相关装置在审
申请号: | 202110200840.2 | 申请日: | 2020-11-06 |
公开(公告)号: | CN113536743A | 公开(公告)日: | 2021-10-22 |
发明(设计)人: | 方俊;林炳怀 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F40/166 | 分类号: | G06F40/166;G06N20/00 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 王兆林 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 处理 方法 相关 装置 | ||
本申请实施例公开了一种文本处理方法和相关装置,至少涉及人工智能中的自然语言处理和机器学习,以及云计算技术中的数据并行计算等,针对待识别的第一文本,对该第一文本进行文本处理,通过对第一文本的至少一处内容修改,将第一文本修改为第二文本。其中,任意一处内容修改对应一个修改对。为了能够确定内容修改对应的语言表达错误类型和错误原因,不仅依据修改对提供的信息,还引入第一文本和第二文本来完善该内容修改在修改前后的完整语境信息,因此,在修改对的基础上,通过结合第一文本和第二文本,为确定修改对的语言表达错误类型及其错误原因提供了较为完整的信息依据,实现了对于文本表达错误类型的准确识别以及具体的错误成因。
本申请对申请号为202011231200.X,申请日为2020年11月06日,发明名称为“一种文本处理方法和相关装置”的中国专利申请提出分案申请。
技术领域
本申请涉及数据处理领域,特别是涉及一种文本处理方法和相关装置。
背景技术
语言是人类进行沟通交流的表达方式,语言具有对应的语法和词汇,是由词汇按一定的语法所构成的语音表义系统。一般来说,各个民族都有自己的语言,例如汉语、英语、德语等。
用户可以通过语言进行书面的文本表达,然而,不论是使用自己的母语还是新学习的语种,都有可能出现语言表达错误,例如语法使用不当、表达不规范的问题。可以通过语言错误识别技术对用户所提供的文本进行错误识别,例如,在教育行业,可以利用语言错误识别技术帮助老师批改学生英语作文。
相关技术中主要采用大量语料去学习语言规律,从而对文本中的错误进行识别和修改,由于这种修改是基于统计得出来的,不仅准确率不高,而且无法给出错误原因。从而导致用户仅能知道文本表达有误,但却难以了解错误的原因。
发明内容
为了解决上述技术问题,本申请提供了一种文本处理方法和相关装置,实现了对于文本表达错误类型的准确识别以及具体的错误成因。
本申请实施例公开了如下技术方案:
一方面,本申请实施例提供了一种文本处理方法,所述方法包括:
获取待识别的第一文本;
对所述第一文本进行文本处理,得到第二文本;
根据所述第一文本和所述第二文本确定至少一个修改对,其中,一个修改对对应于所述文本处理中的一处内容修改,所述修改对包括所述第一文本中对应所述内容修改的内容,以及所述第二文本中对应所述内容修改的内容;
根据所述第一文本、所述第二文本和所述修改对,确定所述内容修改对应的语言表达错误类型和错误原因。
另一方面,本申请实施例提供了一种文本处理装置,其特征在于,所述装置包括获取单元和确定单元:
所述获取单元,用于获取待识别的第一文本;
所述确定单元,用于对所述第一文本进行文本处理,得到第二文本;
所述确定单元,还用于根据所述第一文本和所述第二文本确定至少一个修改对,其中,一个修改对对应于所述文本处理中的一处内容修改,所述修改对包括所述第一文本中对应所述内容修改的内容,以及所述第二文本中对应所述内容修改的内容;
所述确定单元,还用于根据所述第一文本、所述第二文本和所述修改对,确定所述内容修改对应的语言表达错误类型和错误原因。
另一方面,本申请实施例提供了一种用于文本处理的设备,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行上述方面所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110200840.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:输入感测设备
- 下一篇:信息处理方法、信息处理装置以及信息处理系统