[发明专利]确定标准问题的方法及装置有效
申请号: | 201910595511.5 | 申请日: | 2019-07-03 |
公开(公告)号: | CN110413749B | 公开(公告)日: | 2023-06-20 |
发明(设计)人: | 梁忠平;蒋亮;温祖杰;张家兴 | 申请(专利权)人: | 创新先进技术有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F18/22;G06F16/35 |
代理公司: | 北京亿腾知识产权代理事务所(普通合伙) 11309 | 代理人: | 陈霁;周良玉 |
地址: | 开曼群岛大开曼岛*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 确定 标准 问题 方法 装置 | ||
1.一种确定标准问题的方法,所述方法包括:
获取多个文本类簇分别对应的代表文本,其中,所述多个文本类簇是对多个用户问题分别对应的文本进行聚类分析得到的;
获取各个代表文本的特征值,使得任意两个代表文本的特征值之间的差值与所述任意两个代表文本的语义相似程度负相关;
根据各个代表文本的特征值对各个代表文本排序,得到文本序列;
接收对所述文本序列的标注信息,所述标注信息指示了所述文本序列中的至少一个子序列,同一个子序列包含的多个代表文本语义相似;
针对每个子序列,确定用于代表该子序列的选定文本;
根据各个子序列对应的所述选定文本以及未包含于各个子序列的代表文本,确定多个标准问题。
2.根据权利要求1所述的方法,其中,
在所述获取多个文本类簇分别对应的代表文本之前,还包括:
获取多个用户问题分别对应的文本的特征向量;
根据各个文本的特征向量,基于聚类算法对各个文本进行聚类分析,得到所述多个文本类簇;
所述聚类算法包括:DBSCAN、HDBSCAN、BIRCH及HAC中的任一项。
3.根据权利要求1所述的方法,其中,
所述获取各个代表文本的特征值,包括:
获取各个代表文本的特征向量;
基于T-SNE算法对各个代表文本的特征向量进行降维,得到各个代表文本的特征值。
4.根据权利要求1所述的方法,其中,
所述获取各个代表文本的特征值,包括:
获取第一语言模型,其中,所述第一语言模型包含两个分支,每个分支用于预测对应输入的文本的特征值,所述第一语言模型被训练为,两个分支预测的两个特征值之间的差值与对应输入的两个文本的语义相似程度负相关;
将各个代表文本分别输入所述第一语言模型的任意一个分支,通过所述任意一个分支得到各个代表文本的特征值。
5.根据权利要求4所述的方法,其中,
所述第一语言模型基于多组训练样本训练得到,其中,每组训练样本包括两个训练文本,以及包括用于指示所述两个训练文本是否语义相似的标签。
6.根据权利要求5所述的方法,其中,
所述第一语言模型的两个分支为第一分支和第二分支,每组所述训练样本包括第一训练文本和第二训练文本,所述第一语言模型通过以下方式训练得到:
将任一组训练样本包括的第一训练文本和第二训练文本,分别输入所述第一语言模型的第一分支和第二分支;
得到第一分支针对第一训练文本预测的第一特征值,以及第二分支针对第二训练文本预测的第二特征值;
根据第一特征值和第二特征值之间的差值,以及所述任一组训练样本包括的标签,更新所述第一语言模型。
7.根据权利要求4所述的方法,其中,所述第一语言模型是基于BERT的语言模型。
8.根据权利要求1所述的方法,其中,
所述针对每个子序列,确定用于代表该子序列的选定文本,包括:针对每个子序列,从该子序列包含的多个代表文本中选择一个作为所述选定文本。
9.根据权利要求1所述的方法,其中,
所述针对每个子序列,确定用于代表该子序列的选定文本,包括:
针对每个子序列,合并该子序列包含的多个代表文本分别对应的文本类簇中的文本,得到该子序列对应的文本集合;
从该子序列对应的文本集合中选择一个文本作为所述选定文本。
10.根据权利要求1所述的方法,其中,
所述标注信息包括:与至少一个子序列一一对应的至少一条指示信息,所述指示信息指示了对应的子序列在文本序列中的起始位置及截止位置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于创新先进技术有限公司,未经创新先进技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910595511.5/1.html,转载请声明来源钻瓜专利网。