[发明专利]文本归类方法、装置、电子设备及介质有效
申请号: | 202011581244.5 | 申请日: | 2020-12-28 |
公开(公告)号: | CN112579781B | 公开(公告)日: | 2023-09-15 |
发明(设计)人: | 钱辉娟 | 申请(专利权)人: | 平安银行股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F18/2415;G06F40/279;G06F40/211 |
代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
地址: | 518000 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 归类 方法 装置 电子设备 介质 | ||
本发明涉及智能决策技术,揭露一种文本归类方法,包括:获取标识多个文本类别的多个文本关键词子集;基于待归类文本获取目标关键词集;判断是否存在与目标关键词集匹配的文本关键词子集;若是,确定匹配的文本关键词子集对应的文本类别为待归类文本的类别;若否,计算目标关键词集分别对应多个文本类别的第一归属概率值,根据计算得到的多个第一归属概率值计算得到第二归属概率值集合,确定最大的第二归属概率值对应的文本类别为待归类文本的类别。本发明还涉及区块链技术,目标关键词集等可以存储在区块链节点中。本发明还揭露一种文本归类装置、电子设备及存储介质。本发明可以解决文本归类的准确率不高的问题。
技术领域
本发明涉及智能决策技术领域,尤其涉及一种文本归类方法、装置、电子设备及计算机可读存储介质。
背景技术
随着互联网的发展,人与人的交流、人与信息的交流轨迹等信息更多的以电子化的形式被存储,例如,这些信息能够形成文本信息。通过对文本信息进行文本归类便于后续查找和处理包含文本信息的文件,例如,银行行员和用户之间存在关于理财产品信息的聊天对话,通过对聊天对话进行文本归类可以将理财产品的绩效正确的归到对应的银行行员名下。
现有的文本归类方法通常是基于词频来获取关键信息并根据关键信息来进行归类,但是现有技术中这中方法获取关键信息并没有结合具体的上下文关联文本信息,导致关键信息提取不准确,进而使文本归类的准确率不高。
发明内容
本发明提供一种文本归类方法、装置、电子设备及计算机可读存储介质,其主要目的在于解决文本归类的准确率不高的问题。
为实现上述目的,本发明提供的一种文本归类方法,包括:
获取历史文本集,提取所述历史文本集的文本关键词集,所述文本关键词集包括标识多个文本类别的多个文本关键词子集;
获取待归类文本;
对所述待归类文本进行预处理,得到待归类标准文本;
筛选所述待归类标准文本中预设词性的关键词,得到候选关键词集,基于图排序算法从所述候选关键词集中提取目标关键词集;
判断所述多个文本关键词子集中是否存在与所述目标关键词集匹配的文本关键词子集;
在所述多个文本关键词子集中存在与所述目标关键词集匹配的文本关键词子集时,确定与所述目标关键词集匹配的文本关键词子集对应的文本类别为所述待归类文本的类别;
在所述多个文本关键词子集中不存在与所述目标关键词集匹配的文本关键词子集时,利用预设的归属概率模型计算所述目标关键词集分别对应所述多个文本类别的第一归属概率值,得到第一归属概率值集合,根据所述第一归属概率值集合和预设归属概率公式计算得到第二归属概率值集合,确定所述第二归属概率值集合中最大的第二归属概率值对应的文本类别为所述待归类文本的类别。
可选地,所述提取所述历史文本集的文本关键词集,包括:
以句号为节点对所述历史文本集进行句子分割处理,得到初始句子集;
对所述初始句子集中的每个句子进行去停用词处理,得到去停句子集;
对所述去停句子集中的每个句子进行分词处理,得到分词数据集;
对所述分词数据集中的每个词语进行词性标注处理,得到标准文本集;
提取所述标准文本集的文本关键词词集。
可选地,所述基于图排序算法从所述候选关键词集中提取目标关键词集,包括:
根据所述候选关键词集构建有向有权图;
根据预设的权重计算公式计算所述有向有权图中多个节点的权重;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安银行股份有限公司,未经平安银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011581244.5/2.html,转载请声明来源钻瓜专利网。