[发明专利]一种提供高频问题回答的方法和装置有效
申请号: | 201410049585.6 | 申请日: | 2014-02-12 |
公开(公告)号: | CN104834651B | 公开(公告)日: | 2020-06-05 |
发明(设计)人: | 陈超 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/289;G06F40/30 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 刘光明;陆锦华 |
地址: | 100080 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 提供 高频 问题 回答 方法 装置 | ||
1.一种提供高频问题回答的方法,其特征在于,包括:
步骤A:根据预选的高频问题集,采用文本分类算法得出高频问题的分类模型,其中答案相同的高频问题归为同一高频问题类;
步骤B:使用所述分类模型,确定当前待回答的高频问题可能属于的一个或几个高频问题类;
步骤C:根据当前待回答的高频问题对于步骤B中确定的高频问题类的属于概率,对当前待回答的高频问题进行答复;
所述步骤A包括:
步骤A1:对所述高频问题集进行特征化,使其中各个高频问题在特征化之后为多个特征词;
步骤A2:对特征化之后的多个高频问题进行模型训练从而得到所述分类模型;
其中,所述步骤A2包括:
步骤A21:按以下公式计算出高频问题集中每个特征词的信息增益值:
其中,n表示高频问题的类别数目;p(ci)表示类别ci的先验概率,p(t)表示词t的先验概率,p(ci|t)表示出现t时,类别ci出现的概率,表示不出现t时,类别ci出现的概率;
步骤A22:根据每个特征词的信息增益值,将高频问题向量化,得到向量化后的高频问题集;
步骤A23:把向量化后的高频问题集作为数据进行模型训练,从而得到所述分类模型;
在所述步骤C中,若最大的一个属于概率大于预设值,则输出对应该属于概率的高频问题类的答案,否则提供大小排名在前的预设数目个属于概率所对应的高频问题类的答案。
2.根据权利要求1所述的方法,其特征在于,所述步骤A1包括:
对所述高频问题集依次进行文本纠错、分词、停用词过滤,然后按预设方式对所述高频问题集进行词语泛化,从而得到多个特征词。
3.一种提供高频问题回答的装置,其特征在于,包括:
模型构建模块:用于根据预选的高频问题集,采用文本分类算法得出高频问题的分类模型,其中答案相同的高频问题归为同一高频问题类;
归类模块,用于使用所述分类模型,确定当前待回答的高频问题可能属于的一个或几个高频问题类;
答复模块,用于根据当前待回答的高频问题对于所述归类模块确定的高频问题类的属于概率,对当前待回答的高频问题进行答复;
所述模型构建模块包括:
特征化单元,用于对所述高频问题集进行特征化,使其中各个高频问题在特征化之后为多个特征词;
训练单元,用于对特征化之后的多个高频问题进行模型训练从而得到所述分类模型;
其中,所述训练单元用于:
按以下公式计算出高频问题集中每个特征词的信息增益值:
其中,n表示高频问题的类别数目;p(ci)表示类别ci的先验概率,p(t)表示词t的先验概率,p(ci|t)表示出现t时,类别ci出现的概率,表示不出现t时,类别ci出现的概率;
根据每个特征词的信息增益值,将高频问题向量化,得到向量化后的高频问题集;
把向量化后的高频问题集作为数据进行模型训练,从而得到所述分类模型;
所述答复模块包括:
排序模块,用于对所述归类模块确定的高频问题类的属于概率按大小进行排序;
判断输出模块,用于判断最大的一个属于概率是否大于预设值,若是,则输出对应该属于概率的高频问题类的答案,否则输出大小排名在前的预设数目个属于概率所对应的高频问题类的特征化的高频问题;
回答模块,用于输出被选择的所述特征化高频问题的答案。
4.根据权利要求3所述的装置,其特征在于,所述特征化单元还用于:对所述高频问题集依次进行文本纠错、分词、停用词过滤,然后按预设方式对所述高频问题集进行词语泛化,从而得到多个特征词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410049585.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种显示网络资源的质量参数的方法和装置
- 下一篇:总线型的中央处理器