[发明专利]一种文本分类方法、装置、终端及计算机可读存储介质有效

申请号：	201811183892.8	申请日：	2018-10-11
公开（公告）号：	CN109446321B	公开（公告）日：	2021-08-27
发明（设计）人：	王正魁;贾志强;桑海岩	申请（专利权）人：	达闼机器人有限公司
主分类号：	G06F16/35	分类号：	G06F16/35
代理公司：	北京竹辰知识产权代理事务所(普通合伙) 11706	代理人：	陈龙
地址：	200245 上海市***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明实施例涉及数据处理领域，公开了一种文本分类方法、装置、终端及计算机可读存储介质。本发明中，文本分类方法包括以下步骤：提取待分类文本的文本特征；其中，待分类文本的文本特征由待分类文本中任意M个字组成，M为大于1的正整数；确定每个待分类文本的文本特征在各个类别的语料中的词频‑逆文档频率；根据每个待分类文本的文本特征在各个类别的语料中的词频‑逆文档频率，确定待分类文本属于各个类别的置信度；根据待分类文本属于各个类别的置信度，确定待分类文本的类别。该实现中，由于提取的文本特征由待分类文本中任意M个字组成，使得能够针对同一语料，通过提取距离更长的文本特征的方法，得到更多文本特征，降低了对语料的规模的要求。
搜索关键词：	一种文本分类方法装置终端计算机可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种文本分类方法，其特征在于，包括：提取待分类文本的文本特征；其中，所述待分类文本的文本特征由所述待分类文本中任意M个字符组成，M为大于1的正整数；确定每个待分类文本的文本特征在各个类别的语料中的词频‑逆文档频率；根据每个所述待分类文本的文本特征在各个类别的语料中的词频‑逆文档频率，确定所述待分类文本属于各个类别的置信度；根据所述待分类文本属于各个类别的置信度，确定所述待分类文本的类别。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于达闼机器人有限公司，未经达闼机器人有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201811183892.8/，转载请声明来源钻瓜专利网。

上一篇：一种基于LDA的生物医药技术主题挖掘方法
下一篇：文本分析方法、装置、电子设备及可读存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种文本分类方法、装置、终端及计算机可读存储介质有效

专利文献下载