[发明专利]一种文本分类方法和装置有效
申请号: | 202110046183.0 | 申请日: | 2021-01-14 |
公开(公告)号: | CN112380350B | 公开(公告)日: | 2021-05-07 |
发明(设计)人: | 于游;姜巍;张珊珊;赵永强 | 申请(专利权)人: | 北京育学园健康管理中心有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/284 |
代理公司: | 北京绘聚高科知识产权代理事务所(普通合伙) 11832 | 代理人: | 罗硕 |
地址: | 100000 北京市朝阳区西*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 分类 方法 装置 | ||
本发明实施例提供一种文本分类方法和装置,本发明通过确定待分类的文本中的多个基本关键词,并确定用于表示基本关键词的在所述文本中的重要程度;当在所述多个基本关键词中确定位于预设的标签分类关键词表中的标签关键词,对所述标签关键词的基本权重加权,以增加该标签关键词的权重,与此同时,还基于预设的词向量模型确定与所述标签关键词关联的相关关键词,防止遗漏低频关键词;最终根据所述标签分类关键词表中关键词与分类结果的对应关系,所述基本关键词、标签关键词、相关关键词以及各自对应的权重值,综合确定出文本的分类结果,以提高分类结果的准确度。
技术领域
本发明属于互联网技术领域,尤其涉及一种文本分类方法和装置。
背景技术
随着互联网技术的不断发展,越来越多的人通过网络获取有用的信息。伴随着多样化的应用的普及,以及各种母婴社交应用所具有的典型的4A特点,随之而来的是不断膨胀的母婴信息。信息量的极大增加,使得高效的从网络信息中提取有用信息成为了人们的迫切需要。然而文本关键词的抽取,以及文本的自动分类技术作为广泛应用的两个技术,在网络不断扩容的情况下,对于快速高效检索母婴问题,以及有效组织资源带来极大的帮助。
在实际应用中,文本的关键词是表达文档主题概念的词汇,一个好的关键词,既要有专指性又要准确的反应文本的主旨思想,也能够表示文本的类别,而现有技术多是依赖于人工的主观思维的提取关键词,然后对文本进行分类,不仅分类效率低下,且难以保障分类结果的准确性。
发明内容
为了解决上述现有技术中依赖于人工的主观思维的提取关键词,然后对文本进行分类,不仅分类效率低下,且难以保障分类结果的准确性的技术问题,本发明提供了一种文本分类方法和装置。
第一方面,本发明提供了一种文本分类方法,所述方法包括:
确定待分类的文本中的多个基本关键词以及各基本关键词对应的基本权重,其中所述基本权重用于表示基本关键词在所述文本中的重要程度;
在所述多个基本关键词中确定位于预设的标签分类关键词表中的标签关键词,并对所述标签关键词的基本权重加权;
基于预设的词向量模型确定与所述标签关键词关联的相关关键词,并确定与所述相关关键词对应的权重值;
根据所述标签分类关键词表,所述基本关键词、标签关键词、相关关键词以及各自对应的权重值,确定所述文本的分类结果,其中,所述标签分类关键词表中包括有关键词与分类结果的对应关系。
可选地,确定待分类的文本中的多个基本关键词以及各关键词对应的基本权重的步骤,包括:
对所述文本进行预处理得到多个参考词汇;
计算所述多个参考词汇中各参考词汇对应的词频;
将所述词频大于预设阈值的参考词汇设为基本关键词;
计算所述基本关键词的逆文本频率;
根据所述基本关键词的词频和逆文本频率计算所述关键词的基本权重。
可选地,还包括:
将不位于所述标签分类关键词表中的关键词的基本权重,确定为所述关键词对应的权重值,以保留不位于所述标签分类关键词表中的关键词的权重信息。
可选地,基于预设的词向量模型确定与所述标签关键词关联的相关关键词,并确定与所述相关关键词对应的权重值的步骤,包括:
基于预设的词向量模型确定与所述标签关键词相关的多个参考词;
在所述多个参考词中确定位于所述文本中的参考词为相关关键词;
计算与所述相关关键词对应的权重值。
可选地,所述词向量模型的训练过程,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京育学园健康管理中心有限公司,未经北京育学园健康管理中心有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110046183.0/2.html,转载请声明来源钻瓜专利网。