[发明专利]一种基于BPNN-BERT的电网多业务成本需求文本分类方法在审
申请号: | 202210392931.5 | 申请日: | 2022-04-14 |
公开(公告)号: | CN114969323A | 公开(公告)日: | 2022-08-30 |
发明(设计)人: | 陈世剑;蓝飞;沈华强;金绍君;任妍;于泽邦;刘方舟;周子毓;程家鎏 | 申请(专利权)人: | 国网浙江省电力有限公司;国网经济技术研究院有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/166;G06N3/04;G06N3/08 |
代理公司: | 杭州杭诚专利事务所有限公司 33109 | 代理人: | 樊铮 |
地址: | 310012 *** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 bpnn bert 电网 业务 成本 需求 文本 分类 方法 | ||
为了解决现有技术只能在已有分类的基础上进行分类而无法完全实现对文本信息的分类的问题,提出一种基于BPNN‑BERT的电网多业务成本需求文本分类方法,本发明利用电网业务成本需求报告中的文本信息,将业务成本需求报告转换为可批量化处理的高维文本矩阵,然后根据成本表述文本迭代改进文本语义信息,建立自动化识别的电网业务成本分类器,以支持电网企业实现成本分类管理、资源精准配置,提高电网投入产出效率。能利用电网成本需求报告中的文本信息直接进行成本分类,减少了人工成本,大大加快生产效率;利用训练后的神经网络模型对向量化的成本需求文本进行分类,提高了分类的精确度。
技术领域
本发明涉及机器学习领域,具体涉及一种基于BPNN-BERT的文本分类方法。
背景技术
电网公司面临外部成本监审压力和内部成本精益管理双重挑战,亟需提高差异化业务领域的成本标准适配性,构建多业务需求分级评定技术,满足多业务需求场景下成本配置决策需求。电网业务规模庞大类型丰富、成本管控要求多维精益,因此业务需求成本识别和分类具有较大难度。现有的分类方法中,几乎没有能够快速准确地将电网成本从文本阶段开始分类的方法。
例如,在中国专利文献上公开的“电网模型分类标识方法、系统、电子设备及存储介质”,其公开号为“CN112528447A”,包括如下步骤:步骤SS1:存量模型分类标签维护,生成分类标签及接线图存入训练样本模型库中;步骤SS2:对训练样本模型库进行特征提取,形成模型类别特征库;步骤SS3:对增量一次设备接线图进行模型分类识别,生成一次设备模型的类型标签。这种方法只能基于已有分类标签的基础上对电网模型进行分类。
发明内容
为了解决现有技术只能在已有分类的基础上进行分类而无法完全实现对文本信息的分类的问题,提出一种基于BPNN-BERT的电网多业务成本需求文本分类方法,本发明利用电网业务成本需求报告中的文本信息,将业务成本需求报告转换为可批量化处理的高维文本矩阵,然后根据成本表述文本迭代改进文本语义信息,建立自动化识别的电网业务成本分类器,以支持电网企业实现成本分类管理、资源精准配置,提高电网投入产出效率。
本发明的一种基于BPNN-BERT的电网多业务成本需求文本分类方法包括如下步骤:
S1:将业务成本需求文本表示为向量形式;对电网多业务成本需求文本进行数字向量表达,以将文本信息从字符转化为计算机可以理解和计算的向量形式,并对长短不一的文本进行补齐,补齐的字符单元做空白处理且不参与后续计算,方便计算机快速处理;
S2:将步骤S1中的向量形式的业务成本需求文本生成初始向量矩阵输入到BERT模型中,并通过并行处理编码字向量的方式,获得业务成本需求文本的全局语义向量;
S3:提取业务成本需求文本用于对神经网络分类模型进行训练后识别三类不同的业务成本。将文本信息转换为向量形式后便于计算机进行处理,利用注意力机制可以实现文本信息的相似性的对比从而达到对相似类别的多业务成本需求文本进行识别而达到成本分类的目的,利用训练后的神经网络可以快速而精准的进行分类识别。
作为优选,所述步骤S1中将业务成本需求文本表示为向量形式包括如下步骤:
S101:获取业务成本需求文本中所有的词向量构成词向量矩阵;
S102:获取业务成本需求文本中的每个字符对应的句向量和位置向量,构成所有文本的句向量矩阵和位置向量矩阵;
S103:将所有文本字符的词向量矩阵、句向量矩阵和位置向量矩阵相加后得到业务成本需求文本的初始向量矩阵X0。
作为优选,步骤S101中,将业务成本需求文本中的单个字符作为一个token,然后进行token-id转换。“token”即要识别的最小单元。
作为优选,步骤S103中,设置文本最大长度为Lmax,对不同长度的业务成本需求文本进行字数补齐,补齐的字符单元不参与后续具体计算。
作为优选,步骤S2包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网浙江省电力有限公司;国网经济技术研究院有限公司,未经国网浙江省电力有限公司;国网经济技术研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210392931.5/2.html,转载请声明来源钻瓜专利网。