[发明专利]文本分类方法、装置及设备在审
申请号: | 202010434980.1 | 申请日: | 2020-05-21 |
公开(公告)号: | CN111753525A | 公开(公告)日: | 2020-10-09 |
发明(设计)人: | 方思维 | 申请(专利权)人: | 浙江口碑网络技术有限公司 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/289;G06F40/30;G06K9/62 |
代理公司: | 北京中强智尚知识产权代理有限公司 11448 | 代理人: | 黄耀威 |
地址: | 310012 浙江省杭州市西*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 分类 方法 装置 设备 | ||
本申请公开了一种文本分类方法、装置及设备,涉及文本处理技术领域,能够从复杂的对象特征中准确计算出文本信息的权重值,提升文本分类效果,减少从文本信息中提取有用信息所存在的误差。其中方法包括:获取对文本语料库中文本信息进行分词处理后的文本分词;确定文本分词对应的属性特征;基于所述本分词对应的属性特征,选取适用于相应属性特征的统计模型对文本语料信息中文本分词进行频率统计,得到文本分词在文本信息中的权重值;将所述文本分词在文本信息中的权重值输入至预先训练的分类器中进行分类,得到文本信息所映射的分类结果。
技术领域
本申请涉及文本处理技术领域,尤其是涉及到一种文本分类方法、装置及设备。
背景技术
随着电商平台的迅速崛起,通过网络平台进行对象交易的方式已经逐渐渗入至人们的日常生活,用户可以从网络平中获取以及产生大量的文本信息,例如,通过浏览页面获取对象信息、通过搜索栏查询对象信息、通过评价栏发送评价信息等。由于网络平台中文本信息的数据量巨大,如果不及时进行分类处理,很难对文本信息中有用信息进行提取。
现有技术中,网络平台中文本信息融合了大量对象信息,对文本信息进行分类处理的过程可以使用类似于TF-IDF算法统计文本信息中词频等参数,进一步通过计算文本信息中词频等参数形成的权重值来确定文本信息之间的相似度,将相似度较高的文本信息作为一个分类内的文本信息。然而,由于文本信息中涉及到复杂的对象特征,使用类似于TF-IDF算法无法从包含复杂对象特征的文本信息中准确计算出文本信息所形成的权重值,使得文本分类效果不理想,导致从文本信息中提取的有用信息存在误差。
发明内容
有鉴于此,本申请提供了一种文本分类方法、装置及设备,主要目的在于解决现有技术中的文本分类效果不理想,导致从文本信息中提取的有用信息存在误差的问题。
根据本申请的第一个方面,提供了一种文本分类方法,该方法包括:
获取对文本语料库中文本信息进行分词处理后的文本分词;
确定文本分词对应的属性特征;
基于所述本分词对应的属性特征,选取适用于相应属性特征的统计模型对文本语料信息中文本分词进行频率统计,得到文本分词在文本信息中的权重值;
将所述文本分词在文本信息中的权重值输入至预先训练的分类器中进行分类,得到文本信息所映射的分类结果。
在本发明另一实施例中,所述确定文本分词对应的属性特征,具体包括:
利用预先训练的特征语料库中所记录的分词与属性特征之间的映射关系,确定文本分词对应的属性特征;
所述利用预先训练的特征语料库中所记录的分词与属性特征之间的映射关系,确定文本分词对应的属性特征,具体包括:
将文本语料库中的文本分词与预先训练的特征语料库中所记录的分词进行特征匹配;
若匹配成功,则提取预先训练的语料库中特征匹配成功的分词所映射的属性特征,作为文本语料信息中文本分词的属性特征。
在本发明另一实施例中,所述基于所述本分词对应的属性特征,选取适用于相应属性特征的统计模型对文本语料信息中文本分词进行频率统计,得到文本分词在文本信息中的权重值,具体包括:
基于所述文本分词对应的属性特征,判断所述文本分词的属性特征是否涉及对象特征;
如果是,则利用融入有对象特征的统计模型对文本信息中涉及对象特征的文本分词进行频率统计,得到涉及对象特征的文本分词在文本信息中的权重值;
如果否,则利用未融入有对象特征的统计模型对文本语料信息中未涉及对象特征的文本分词进行频率统计,得到未涉及对象特征的文本分词在文本信息中的权重值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江口碑网络技术有限公司,未经浙江口碑网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010434980.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种盐焗澳洲坚果果仁及其制备方法
- 下一篇:电池盒组及电池盒组的制造方法