[发明专利]一种长文本的无监督分类方法在审
申请号: | 202110691284.3 | 申请日: | 2021-06-22 |
公开(公告)号: | CN113378950A | 公开(公告)日: | 2021-09-10 |
发明(设计)人: | 林正春;兰林;陈功文 | 申请(专利权)人: | 深圳市查策网络信息技术有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F40/284;G06F40/30;G06N3/08 |
代理公司: | 深圳市查策知识产权代理事务所(普通合伙) 44527 | 代理人: | 曾令安 |
地址: | 518000 广东省深圳市龙华区民*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种长文本的无监督分类方法,包括以下步骤:对待分类长文本进行过滤,提取待分类长文本中的标题文本、正文文本及发文部门文本三个部分;提取标题文本、正文文本及发文部门文本三个部分的权重系数;根据提取的权重系数将标题文本、正文文本及发文部门文本融合成一个新的长文本T;对新的长文本T进行中文分词,提取分词信息;将分词信息输入词向量模型得到词向量信息;根据词向量信息,计算长文本T的特征向量;对长文本T的特征向量进行聚类得到文本分类。通过本发明,改进长文本分类的方法,降低了长文本分类的时间复杂度,提高长文本分类的准确性,更方便用户对长文本解读和分类。 | ||
搜索关键词: | 一种 文本 监督 分类 方法 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市查策网络信息技术有限公司,未经深圳市查策网络信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/202110691284.3/,转载请声明来源钻瓜专利网。
- 上一篇:一种美缝剂灌装生产线
- 下一篇:一种通信传输板卡的检测装置