[发明专利]语句样本集的生成方法、电子装置及存储介质有效
申请号: | 201911089477.0 | 申请日: | 2019-11-08 |
公开(公告)号: | CN110837559B | 公开(公告)日: | 2023-03-10 |
发明(设计)人: | 刘臣;盛欢 | 申请(专利权)人: | 卫盈联信息技术(深圳)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/335;G06F16/31 |
代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;郭梦霞 |
地址: | 518000 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及数据处理技术,提供了一种语句样本集的生成方法、电子装置及存储介质。该方法从语料库中读取预设数量的语句,基于二分K均值算法对语句执行聚类操作,若存在语句数量大于预设值的语句类,再利用K均值算法对该语句类执行聚类操作,得到语句集,将语句集中相同语句类别的语句组合成多个语句对,筛选出满足第一条件和第二条件的语句对,将该语句对的语句作为正样本集,将语句集中不同类别的语句随机组合成多个语句对,筛选出满足第三条件和第四条件的语句对,将该语句对的语句作为负样本集,将正负样本集反馈至用户,并存储至预设存储路径。本发明可以在占用系统内存小的情况下快速生成大量的语句样本,且生成的语句的语义合理。 | ||
搜索关键词: | 语句 样本 生成 方法 电子 装置 存储 介质 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于卫盈联信息技术(深圳)有限公司,未经卫盈联信息技术(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201911089477.0/,转载请声明来源钻瓜专利网。