[发明专利]确定标准问题的方法及装置有效
申请号: | 201910595511.5 | 申请日: | 2019-07-03 |
公开(公告)号: | CN110413749B | 公开(公告)日: | 2023-06-20 |
发明(设计)人: | 梁忠平;蒋亮;温祖杰;张家兴 | 申请(专利权)人: | 创新先进技术有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F18/22;G06F16/35 |
代理公司: | 北京亿腾知识产权代理事务所(普通合伙) 11309 | 代理人: | 陈霁;周良玉 |
地址: | 开曼群岛大开曼岛*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 确定 标准 问题 方法 装置 | ||
本说明书实施例提供了一种确定标准问题的方法及装置,方法包括:在获取到多个用户问题对应的多个代表文本之后,进一步获取各个代表文本的特征值,使得任意两个代表文本的特征值之间的差值与该任意两个代表文本的语义相似程度负相关;然后根据各个代表文本的特征值对各个代表文本进行排序,得到文本序列,标注人员即可通过判断文本序列中相邻两个代表文本是否语义相似,快速的发现由多个语义相似的代表文本连续排列而形成的子序列,并针对发现的各个子序列进行标注;后续可针对标注的每个子序列,确定能够代表该子序列的选定文本,进而根据各个子序列对应的选定文本以及未包含于各个子序列的代表文本确定多个标准问题。
技术领域
本说明书一个或多个实施例涉及计算机领域,尤其涉及确定标准问题的方法及装置。
背景技术
在构建或更新智能客服机器人所对应的问答知识库时,需要从大量用户问题中确定出多个标准问题,然后针对多个标准问题分别配置标准答案。为了确定标准问题,通常需要对大量用户问题分别对应的文本进行聚类分析,得到大量的文本类簇,然后从各个文本类簇中分别选择一个代表文本,并根据选择的各个代表文本确定多个标准问题。如果存在语义相似的标准问题,而针对语义相似的标准问题分别配置的标准答案又不一致甚至则存在逻辑上的冲突,则会导致智能客服机器人无法较好的实现智能问答业务。
现有技术中,需要进行较高程度的人工干预,才能较为有效的避免产生语义相似的标准问题。因此,希望能有改进的方案,能够在较为有效的避免产生语义相似的标准问题的基础上,降低人工干预程度。
发明内容
本说明书一个或多个实施例提供了一种确定标准问题的方法及装置,能够在较为有效的避免产生语义相似的标准问题的基础上,降低人工干预程度。
第一方面,提供了一种确定标准问题的方法,所述方法包括:
获取多个文本类簇分别对应的代表文本,其中,所述多个文本类簇是对多个用户问题分别对应的文本进行聚类分析得到的;
获取各个代表文本的特征值,使得任意两个代表文本的特征值之间的差值与所述任意两个代表文本的语义相似程度负相关;
根据各个代表文本的特征值对各个代表文本排序,得到文本序列;
接收对所述文本序列的标注信息,所述标注信息指示了所述文本序列中的至少一个子序列,同一个子序列包含的多个代表文本语义相似;
针对每个子序列,确定用于代表该子序列的选定文本;
根据各个子序列对应的所述选定文本以及未包含于各个子序列的代表文本,确定多个标准问题。
在一种可能的实施方式中,在所述获取多个文本类簇分别对应的代表文本之前,还包括:
获取多个用户问题分别对应的文本的特征向量;
根据各个文本的特征向量,基于聚类算法对各个文本进行聚类分析,得到所述多个文本类簇;
所述聚类算法包括:DBSCAN、HDBSCAN、BIRCH及HAC中的任一项。
在一种可能的实施方式中,所述获取各个代表文本的特征值,包括:
获取各个代表文本的特征向量;
基于T-SNE算法对各个代表文本的特征向量进行降维,得到各个代表文本的特征值。
在一种可能的实施方式中,所述获取各个代表文本的特征值,包括:
获取第一语言模型,其中,所述第一语言模型包含两个分支,每个分支用于预测对应输入的文本的特征值,所述第一语言模型被训练为,两个分支预测的两个特征值之间的差值与对应输入的两个文本的语义相似程度负相关;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于创新先进技术有限公司,未经创新先进技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910595511.5/2.html,转载请声明来源钻瓜专利网。