[发明专利]一种基于谐音字的答非所问对话生成方法和系统有效
申请号: | 202110204002.2 | 申请日: | 2021-02-24 |
公开(公告)号: | CN112818090B | 公开(公告)日: | 2023-10-03 |
发明(设计)人: | 梁循;吴佳辰;王伟 | 申请(专利权)人: | 中国人民大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33 |
代理公司: | 北京纪凯知识产权代理有限公司 11245 | 代理人: | 赵悦 |
地址: | 100872 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 谐音 答非所问 对话 生成 方法 系统 | ||
1.一种基于谐音字的答非所问对话生成方法,其特征在于,包括以下步骤:
S1将提出的问题进行分词和语义处理;
S2获得经过分词和语义处理后的所述问题的关键词;
S3根据预建立的谐音字数据库,对所述关键词进行谐音字替换,并生成新的问题;
S4将所述新的问题带入预建立的对话回复模型,生成最终的回复。
2.如权利要求1所述的基于谐音字的答非所问对话生成方法,其特征在于,所述步骤S1分词和语义处理的具体过程包括:首先将语音形式的问题转换为文本形式,对文本形式的问题进行分词、词性标注和命名实体识别,并进行语义理解。
3.如权利要求1所述的基于谐音字的答非所问对话生成方法,其特征在于,所述步骤S2中统计所述问题的关键词的具体方法包括:统计经过分词和语义处理后的所述问题中各个词出现的频率TF和逆文本频率IDF指数,从而生成各个所述词的TF-IDF值,其中TF-IDF值最大的词为所述问题的关键词。
4.如权利要求1所述的基于谐音字的答非所问对话生成方法,其特征在于,所述步骤S3中谐音字数据库的预建立过程包括:首先制定包括同音字和近音字的谐音字规则;随后获取常用字的拼音,根据所述谐音字规则,获取与所述常用字对应的谐音字的拼音,按照所述拼音获取相应的谐音字字集;最后,去除所述谐音字字集中的非常用字,生成谐音字数据库。
5.如权利要求4所述的基于谐音字的答非所问对话生成方法,其特征在于,所述步骤S3中谐音字替换方法包括:
S3.1根据所述谐音字数据库,生成所述关键词的谐音字替代集合;
S3.2把所述谐音字替代集合中的候选词依次带回原问题中,生成新的问题;
S3.3判断所述新的问题是否超过预设长度,若否则进入步骤S4,若是则认为回复失败。
6.如权利要求5所述的基于谐音字的答非所问对话生成方法,其特征在于,所述步骤S4中预建立的对话回复模型为seq2seq生成模型。
7.如权利要求6所述的基于谐音字的答非所问对话生成方法,其特征在于,所述对话回复模型的建立过程包括以下步骤:利用爬虫程序爬取大量对话对,进行句子的清洗和筛选,剔除乱码作为初始数据集;筛选出其中为问句的对话,作为训练生成模型的语料库;将所述语料库中的语句拆分为问题数据集和答复数据集;对所述问题数据集和答复数据集中的词向量带入seq2seq模型,对所述seq2seq模型进行训练,获得损失函数最小的模型作为最终的对话回复模型。
8.如权利要求7所述的基于谐音字的答非所问对话生成方法,其特征在于,所述步骤S4中生成最终的回复的方法为:依次将各个所述新的问题带入所述seq2seq生成模型中,生成若干候选的回复,利用kenlm语言模型计算各个候选的回复的概率值,选取其中概率最大的回复作为最终的回复。
9.如权利要求1-8任一项所述的基于谐音字的答非所问对话生成方法,其特征在于,随机设置回复时间,将所述最终的回复设置为经过所述回复时间后再进行发送。
10.一种基于谐音字的答非所问对话生成系统,其特征在于,包括:
问题处理模块,用于将提出的问题进行分词和语义处理;
关键词提取模块,用于获得经过分词和语义处理后的所述问题的关键词;
谐音字替换模块,用于根据预建立的谐音字数据库,对所述关键词进行谐音字替换,并生成新的问题;
回复生成模块,用于将所述新的问题带入预建立的对话回复模型,生成最终的回复。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民大学,未经中国人民大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110204002.2/1.html,转载请声明来源钻瓜专利网。