[发明专利]一种语料标注方法及装置有效
申请号: | 201811206272.1 | 申请日: | 2018-10-17 |
公开(公告)号: | CN109522415B | 公开(公告)日: | 2021-06-01 |
发明(设计)人: | 林志伟;肖龙源;蔡振华;李稀敏;刘晓葳;谭玉坤 | 申请(专利权)人: | 厦门快商通信息技术有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/295;G06K9/62 |
代理公司: | 厦门仕诚联合知识产权代理事务所(普通合伙) 35227 | 代理人: | 乐珠秀 |
地址: | 361007 福建省厦门*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种语料标注方法及装置,其通过对待处理的语料进行向量化处理,得到所述语料的文本向量;根据所述语料的文本向量,利用DBSCAN聚类算法对所述语料进行聚类处理,得到长尾类语料和待标注类语料;对于所述长尾类语料,返回再次聚类处理;对于所述待标注类语料,则进行设置标签,得到标注语料;最后将所有的标注语料进行合并,得到最终标注好的语料,无需多次调整聚类数量,算法更简单,标注效率更高,可靠性更好。 | ||
搜索关键词: | 一种 语料 标注 方法 装置 | ||
【主权项】:
1.一种语料标注方法,其特征在于,包括以下步骤:a.对待处理的语料进行向量化处理,得到所述语料的文本向量;b.根据所述语料的文本向量,利用DBSCAN聚类算法对所述语料进行聚类处理,得到长尾类语料和待标注类语料;c.对于所述长尾类语料,返回步骤b;对于所述待标注类语料,则进行设置标签,得到标注语料;d.将所有的标注语料进行合并,得到最终标注好的语料。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门快商通信息技术有限公司,未经厦门快商通信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811206272.1/,转载请声明来源钻瓜专利网。
- 上一篇:一种文献投递对象选择系统
- 下一篇:一种金融风险控制知识图谱的构建方法