[发明专利]用于问答系统的基于拼音概率的文本纠错方法在审
申请号: | 202011406524.2 | 申请日: | 2020-12-04 |
公开(公告)号: | CN112380333A | 公开(公告)日: | 2021-02-19 |
发明(设计)人: | 周玉 | 申请(专利权)人: | 北京中科凡语科技有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F40/35;G06F40/242 |
代理公司: | 北京庚致知识产权代理事务所(特殊普通合伙) 11807 | 代理人: | 李晓辉;韩德凯 |
地址: | 100190 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 问答 系统 基于 拼音 概率 文本 纠错 方法 | ||
本公开提供了一种用于问答系统的基于拼音概率的文本纠错方法,包括:获取目标文本语句的多个带音调的拼音序列;获取多个带音调的拼音序列中对应最大拼音概率路径的目标拼音序列;以及将目标文本语句以及目标拼音序列组合,作为问答系统的输入。本公开还提供了用于问答系统的基于拼音概率的文本纠错装置、问答系统、电子设备以及可读存储介质。
技术领域
本公开属于自然语言处理技术领域,本公开尤其涉及一种用于问答系统的基于拼音概率的文本纠错方法。
背景技术
文本输入的问答系统通常包括接收输入、问题理解、知识检索、答案生成这四个基本部分。
输入可能是拼音输入或语音输入再转文字的形式。但是,不管是何种输入,都可能存在错误,当错误的输入传入问题理解模块后,就有可能会产生错误的分类和理解,最终使系统输出错误的回答,影响用户的使用体验。
为解决该问题,现有技术中往往会在输入环节采用一些纠错技术。例如对拼音输入的文字或语音转换后的文字通过算法转换成可能正确的文字序列,但在文字输入到问题模块时,未输入文字以外的其他信息,如音调和多音字情况。用户在拼音输入时由于不能输入音调,所以可能会选择正确拼音错误音调的错误文字,也可能选择同音的错误文字,在语音输入时语音输入也可能存在上述错误。
当前输入纠错模块并不能区分字的读音,只能通过该字在训练语料中不同读音时的情况间接理解该字,并在特定上下文中对错误的字纠错,所以纠错效果还存在优化空间。
而且当纠错模块输出错误时,由于问题理解模块没有纠错功能,故很难正确理解含错误文字的输入的含义。
发明内容
为了解决上述技术问题中的至少一个,本公开提供了一种用于问答系统的基于拼音概率的文本纠错方法、用于问答系统的基于拼音概率的文本纠错装置、问答系统、电子设备以及可读存储介质。
根据本公开的一个方面,提供一种用于问答系统的基于拼音概率的文本纠错方法,包括:获取目标文本语句的多个带音调的拼音序列;获取所述多个带音调的拼音序列中对应最大拼音概率路径的目标拼音序列;以及将所述目标文本语句以及所述目标拼音序列组合,作为问答系统的输入。
根据本公开的至少一个实施方式的用于问答系统的基于拼音概率的文本纠错方法,获取所述多个带音调的拼音序列中对应最大拼音概率路径的目标拼音序列,包括:
使用基于拼音概率的文本纠错模型获取所述多个带音调的拼音序列中对应最大拼音概率路径的目标拼音序列,其中,所述基于拼音概率的文本纠错模型通过以下方法建立:
获取文本训练数据,所述文本训练数据包括多个标注拼音的文本语句;
基于所述文本训练数据中的所有文本语句的所有文本词的词频特征,构建第一词典,所述第一词典包括文本词的词表;
基于所述文本训练数据中的所有文本语句的所有文本词的拼音的首字母特征,构建第二词典,所述第二词典包括文本词的拼音表,将所述第一词典与所述第二词典合并,生成组合词典;
构建或获取所有汉字与所有汉字的所有拼音对应的第三词典;以及
基于所述文本训练数据生成拼音转移概率矩阵;
其中,所述文本纠错模型至少包括拼音转移概率矩阵、组合词典以及第三词典。
根据本公开的至少一个实施方式的用于问答系统的基于拼音概率的文本纠错方法,使用基于拼音概率的文本纠错模型获取所述多个带音调的拼音序列中对应最大拼音概率路径的目标拼音序列,包括:
使用概率图算法以及所述拼音转移概率矩阵获得所述最大拼音概率路径,作为所述目标文本语句的所述目标拼音序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中科凡语科技有限公司,未经北京中科凡语科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011406524.2/2.html,转载请声明来源钻瓜专利网。