[发明专利]一种基于人机交互的开放式对话方法和系统在审
申请号: | 201910121662.7 | 申请日: | 2019-02-19 |
公开(公告)号: | CN109829052A | 公开(公告)日: | 2019-05-31 |
发明(设计)人: | 田中瑶;闫浩;杨若宸;曲培培 | 申请(专利权)人: | 田中瑶 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 061000 河北省沧州市运*** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 检索 混合向量 排序模型 人机交互 文献库 答案 自然语言处理 规范化问题 语义 返回结果 检索结果 检索内容 句子分析 输入查询 搜索引擎 向量生成 语法分析 语义分析 语音识别 预先建立 类型库 语料库 传递 索引 对话 语音 梳理 | ||
1.一种基于人机交互的开放式对话方法,其特征在于:
用户进行语音输入查询,搜索引擎进行语音识别后首先采用Lucene检索,检索内容为通过语料库梳理预先建立好索引的检索对;
检索结果传递给混合向量模型,混合向量模型通过预先训练好的向量生成模型,扩充答案,再将扩充好的答案传递给排序模型;
排序模型通过预先训练好的参数,返回结果。
2.如权利要求1所述的一种基于人机交互的开放式对话方法,其特征在于:
所述语音识别,包括用户使用自然语言口语提出的问题首先由语音识别部分通过预处理、特征提取和模式识别形成系统认为最佳的识别形式,将口语问题转换为文本问题,以供后续模块分析和处理;
之后通过预先配置的校正参数,用于根据所述的识别结果确定的输出信息类别和反馈模式,据以控制所述校正模块将输入信息校正为对应的校正后信息,将校正后信息进一步转化为所述输出信息类别的反馈信息,以及将反馈信息反馈给用户。
3.如权利要求1所述的一种基于人机交互的开放式对话方法,其特征在于:
所述采用Lucene检索时将标注好的问题和答案进行匹配,并且加入正则表达实现正则匹配,经过语料库梳理,将标准问题扩展成多个扩展问题的模板;
Lucene将问题模板与答案分别建立索引,当查询语句输入到本模块时,Lucene调用检索方法从索引中查询是否存在与匹配的答案。
4.如权利要求1所述的一种基于人机交互的开放式对话方法,其特征在于:
所述检索内容为通过语料库梳理预先建立好索引的检索对,包括:
在建立索引之前,对语料进行预处理,包括去除重复的文档,进行分词处理,信息检索模块中的关键是对文档权重的确定和对文档进行排序;文档的权重可
以按照以下公式来计算
其中:是该文档包含的第 i 个关键词在问题分析阶段的权重,是该关
键词在这篇文档中出现的频率,是该关键词在文档中出现的反频率,D是指关键字在文档中的分布密度;
关键词在该文档中出现的频率越高则它的 TF 就越大,关键词在越多的文档中出现则它的 IDF 就越小,反之越大,关键词在这篇文档中分布的越集中,则 D 值越大;TF*IDF 值从一个方面反映了该关键词的重要程度,通常在一个文档中经常出现(TF 大)的词,而很少现在其他文档中的词(IDF 大),该词所含有的信息量就越多,这个词也就越重要。
5.如权利要求1所述的一种基于人机交互的开放式对话方法,其特征在于:
所述检索结果传递给混合向量模型,混合向量模型通过预先训练好的向量生成模型,扩充答案包括:
若 FAQ 中所有问句包含的所有的词为 ,则 FAQ 中的每一个问句都可以用一个 n 维的向量来表示;
其中,的计算方法为:设n为在这个问句中出现的个数,m为 FAQ 中含有的问句的
个数,M 为 FAQ 中问句的总数,那么。
6.如权利要求1所述的一种基于人机交互的开放式对话方法,其特征在于:
所述将扩充好的答案传递给排序模型,进一步包括:
文本预处理,对实验数据集进行分词、去停用词和词性标注;
按词性过滤,确定初始候选词集,保留其中的名词、动词、形容词和副词作为初始候选关键词集;
计算初始候选关键词集中每个词的平均信息熵,平均信息熵的倒数作为每个顶点的初始权重并构建TextRank图模型,迭代计算初始候选集合中每个词的权重;
判断是否收敛,如果没有收敛,则继续迭代计算初始候选集合中每个词的权重,如果收敛,按照词语权重进行排序,输出前N个词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于田中瑶,未经田中瑶许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910121662.7/1.html,转载请声明来源钻瓜专利网。