[发明专利]用于问答系统的基于拼音概率的文本纠错方法在审
申请号: | 202011406524.2 | 申请日: | 2020-12-04 |
公开(公告)号: | CN112380333A | 公开(公告)日: | 2021-02-19 |
发明(设计)人: | 周玉 | 申请(专利权)人: | 北京中科凡语科技有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F40/35;G06F40/242 |
代理公司: | 北京庚致知识产权代理事务所(特殊普通合伙) 11807 | 代理人: | 李晓辉;韩德凯 |
地址: | 100190 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 问答 系统 基于 拼音 概率 文本 纠错 方法 | ||
1.一种用于问答系统的基于拼音概率的文本纠错方法,其特征在于,包括:
获取目标文本语句的多个带音调的拼音序列;
获取所述多个带音调的拼音序列中对应最大拼音概率路径的目标拼音序列;以及
将所述目标文本语句以及所述目标拼音序列组合,作为问答系统的输入。
2.根据权利要求1所述的用于问答系统的基于拼音概率的文本纠错方法,其特征在于,获取所述多个带音调的拼音序列中对应最大拼音概率路径的目标拼音序列,包括:
使用基于拼音概率的文本纠错模型获取所述多个带音调的拼音序列中对应最大拼音概率路径的目标拼音序列,其中,所述基于拼音概率的文本纠错模型通过以下方法建立:
获取文本训练数据,所述文本训练数据包括多个标注拼音的文本语句;
基于所述文本训练数据中的所有文本语句的所有文本词的词频特征,构建第一词典,所述第一词典包括文本词的词表;
基于所述文本训练数据中的所有文本语句的所有文本词的拼音的首字母特征,构建第二词典,所述第二词典包括文本词的拼音表,将所述第一词典与所述第二词典合并,生成组合词典;
构建或获取所有汉字与所有汉字的所有拼音对应的第三词典;以及
基于所述文本训练数据生成拼音转移概率矩阵;
其中,所述文本纠错模型至少包括拼音转移概率矩阵、组合词典以及第三词典。
3.根据权利要求2所述的用于问答系统的基于拼音概率的文本纠错方法,其特征在于,使用基于拼音概率的文本纠错模型获取所述多个带音调的拼音序列中对应最大拼音概率路径的目标拼音序列,包括:
使用概率图算法以及所述拼音转移概率矩阵获得所述最大拼音概率路径,作为所述目标文本语句的所述目标拼音序列。
4.根据权利要求3所述的用于问答系统的基于拼音概率的文本纠错方法,其特征在于,将所述目标文本语句以及所述目标拼音序列组合,包括:
使用所述组合词典将拼接后的所述目标文本语句以及所述目标拼音序列转换为数字序列;以及
将数字序列转换为向量。
5.根据权利要求4所述的用于问答系统的基于拼音概率的文本纠错方法,其特征在于,使用所述组合词典将拼接后的所述目标文本语句以及所述目标拼音序列转换为数字序列,将数字序列转换为向量,包括:
对所述目标文本语句进行分词处理,将分词处理后的目标文本语句以及目标拼音序列进行拼接;
使用所述组合词典将拼接后的目标文本语句以及目标拼音序列转换为数字序列;以及
将所述数字序列转换为向量。
6.根据权利要求2所述的用于问答系统的基于拼音概率的文本纠错方法,其特征在于,所述拼音转移概率矩阵为一阶马尔科夫转移概率矩阵。
7.一种用于问答系统的基于拼音概率的文本纠错装置,其特征在于,包括:
拼音序列获取模块,所述拼音序列获取模块获取目标文本语句的多个带音调的拼音序列;
目标拼音序列生成模块,所述目标拼音序列生成模块获取所述多个带音调的拼音序列中对应最大拼音概率路径的目标拼音序列;以及
组合模块,所述组合模块将所述目标文本语句以及所述目标拼音序列组合,生成组合序列,作为问答系统的输入。
8.一种问答系统,其特征在于,包括:
上述任一项的文本纠错装置,所述文本纠错装置对输入的目标文本语句进行处理;
问题理解模块,所述问题理解模块对所述文本纠错装置输出的组合序列进行语义槽识别及意图识别,获取所述目标文本语句的问题类型;
知识检索模块,所述知识检索模块至少基于所述目标文本语句的问题类型对所述目标文本语句的问题答案进行检索;以及
答案生成模块,所述答案生成模块至少基于所述知识检索模块的检索结果生成所述目标文本语句的问题答案。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中科凡语科技有限公司,未经北京中科凡语科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011406524.2/1.html,转载请声明来源钻瓜专利网。