[发明专利]一种基于决策树的任务导向型自动对话方法有效
申请号: | 201910795839.1 | 申请日: | 2019-08-27 |
公开(公告)号: | CN110532363B | 公开(公告)日: | 2022-07-29 |
发明(设计)人: | 王成;胡艳霞 | 申请(专利权)人: | 华侨大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/35;G06F40/216;G06F40/289;G06K9/62 |
代理公司: | 厦门市首创君合专利事务所有限公司 35204 | 代理人: | 张松亭;李艾华 |
地址: | 362000 福建省*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 决策树 任务 导向 自动 对话 方法 | ||
1.一种基于决策树的任务导向型自动对话方法,其特征在于,包括:
1.1)将法律咨询的结论离散化为分类类别,把与结论相关的当事人的信息离散化为基本属性;
1.2)接收当事人咨询的问题,通过分类算法抽取基本属性对应的属性值,结论对应的类别值;
1.3)将收集的实际案例作为训练样本,建立基于决策树的法律咨询分类预测模型;
1.4)接收新的当事人的咨询,根据所建立的决策树实现咨询对话的过程,并返回当事人咨询的结论;
所述1.2),具体包括:
1.2.1)通过标签工程对部分咨询案例中句子的每个属性所对应的属性值打标签;
1.2.2)通过标签工程对部分咨询案例中的结论所对应的分类类别打标签;
1.2.3)对标签数据集通过分类算法训练模型;
1.2.4)通过分类算法训练的模型对咨询案例进行属性值提取,及对结论对应的类别值提取;
所述1.2.3),具体包括:
1.2.3.1)标签数据集设定为一个句子,该句子对应的属性值类别标签为y;
1.2.3.2)文本特征提取:首先通过分词工具对所述句子分词,去掉分词结果中的停用词和低频词,其次每个词语在该数据集中对应的权重,计算公式如下:
TF-IDF=TFl*IDFl
1.2.3.3)将得到的权重数据作为LDA文本主题模型的输入,训练提取句子主题特征x;
1.2.3.4)将提取的特征x作为分类算法的输入,通过SVM算法进行模型的训练,具体计算如下:
首先假设在高维空间的某一分类界面是y=wx+b;其中w表示界面的权重,b表示界面的偏差,w和b的初值通过随机初始化获得,某一特征点xi到平面的距离表达式为:
找到最近点距离最远的分界面,让γi的值最大,也就是目标函数,即:
其中,s表示句子总数,分析目标函数,并将原分类问题可以转化为:
s.t.yi(wxi+b)≥1,i=1,2,3,...s
引入拉格朗日乘子αi可得到拉格朗日函数,拉格朗日乘子αi将约束条件函数与原函数联系到一起,使能配成与变量数量相等的等式方程,从而求出得到原函数极值的各个变量的解:
s.t.αi≥0
将问题转换为求极大极小问题,即通过进一步转化分析得到其等价形式为:
假设至少有一个αj0,得到
其中,b*为目标函数的最优解,α*为对偶问题的最优解,由此得到目标函数分类的超平面,以将不同类别的数据划分;
所述1.2.4),具体包括:
提取所有咨询案例的主题特征,输入训练好的分类算法模型中,预测其属性对应的属性值类别,从而得到所有案例咨询的结构化数据;
所述1.3),具体包括:
1.3.1)将得到的所有咨询案例的结构化数据作为决策树的输入;
1.3.2)分类属性的选择即选择最优划分属性,采取信息增益率的方法从属性集合A={a1,a2,…,an}中选取最优的属性aj;
所述1.3.2),具体包括:
1.3.2.1)首先对结论D进行信息熵的计算,计算公式如下:
其中,m代表D的类别数目,Pi代表结论D对应类别i的总数占总的案例咨询个数;
1.3.2.2)其次对所有属性进行信息熵的计算,计算公式如下:
其中,Qi代表在属性aj对应的属性值类别k的条件下结论D中对应类别i的总数占属性aj对应的属性值类别k的总数,表示属性aj对应的属性值类别k的数据信息;k∈[1,v],v表示aj对应属性值类别的总数;
1.3.2.3)计算在选择属性aj的情况下的信息熵,也叫条件熵,具体计算如下:
其中,|D|代表总的案例咨询个数,代表属性值类别为k的数目;
1.3.2.4)信息增益定义为原来的信息需求与新需求之间的差,如下:
Gain(aj)=Info(D)-Info(D|aj)
1.3.2.5)计算属性aj的分裂信息,具体计算如下:
1.3.2.6)信息增益率使用分裂信息值将信息增益规范化,具体计算如下:
1.3.2.7)计算所有属性A的信息增益率,然后选取信息增益率最大的属性作为分裂节点,即a=max(GainRatio(a1),GainRatio(a2),…,GainRatio(an)),属性节点a的每个属性值对应一个分支,且分支的数据为在属性值为k的情况下剩余属性及结论的数据,当分支对应的还有剩余属性可选择并且结论数据中的类别不唯一时,重复步骤1.3.2.1-1.3.2.7,否则停止分裂;
所述1.4),具体包括:
1.4.1)当接收到新的当事人咨询信息时,从决策树根节点开始,向用户提出属性节点对应的问题,抽取当事人的信息;
1.4.2)将得到的主题特征输入训练好的分类算法模型中,预测其属性对应的属性值类别;
1.4.3)根据预测的属性值类别与决策树当前节点属性的属性值进行比较,选择相等时的分支作为下一步对话的子决策树;
1.4.4)当子决策树为叶子结点是停止对话,并且返回最后的结论类别对应的答案返回给当事人,否则重复1.4.1-1.4.3步骤。
2.根据权利要求1所述的基于决策树的任务导向型自动对话方法,其特征在于,所述1.1),具体包括:
1.1.1)分析给出结论的类别个数,明确每个类别对应的类别含义;
1.1.2)分析并提供可能影响结论的属性集合以及属性对应的属性值类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华侨大学,未经华侨大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910795839.1/1.html,转载请声明来源钻瓜专利网。