[发明专利]一种文本处理方法、装置、存储介质及程序产品在审
申请号: | 202210080649.3 | 申请日: | 2022-01-24 |
公开(公告)号: | CN114564561A | 公开(公告)日: | 2022-05-31 |
发明(设计)人: | 刘斌;何英杰;郑轩 | 申请(专利权)人: | 特斯联科技集团有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/216;G06F40/289;G06K9/62 |
代理公司: | 北京辰权知识产权代理有限公司 11619 | 代理人: | 付婧 |
地址: | 101100 北京市通*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 处理 方法 装置 存储 介质 程序 产品 | ||
本申请涉及一种文本处理方法、装置、存储介质及程序产品。所述方法包括:获取待处理文本;提取所述待处理文本中的所有关键词作为原始特征;将所述原始特征经过Embedding处理转化为第一低维向量;将所述原始特征进行特征交叉变换第二低维向量;基于所述第一低维向量和第二低维向量,得到待处理文本所属类别的概率值。本申请提取待处理文本中的所有关键词作为原始特征,没有按照传统方式排列,而是单个文档取了多少个关键词那就有多少个特征,节省了大量内存空间以及数据传输所造成的时间浪费;另一方面,本申请通过特征交叉变换大大丰富了特征之间的交叉组合能力,从而得到更精确的预测结果。
技术领域
本申请涉及文本处理及深度学习技术领域,更为具体来说,本申请涉及一种文本处理方法、装置、存储介质及程序产品。
背景技术
目前的文本处理算法中,所有的算法在进行特征处理的时候训练数据的每一列特征都是相同的,但是对于文本类型的数据,首先要对文本进行关键词提取,由于每一个关键词都会是一个特征,即使一篇文档的关键词不多,当文档数量增加之后,产生的关键词数量之和也会增加,导致特征数量增加,最终导致训练样本占用大量内存空间,给模型训练带来了极大的不便。
另外,表示特征之间关联信息的向量不够丰富,FM或者FFM算法在做特征交叉的时候会给每一列特征训练一个关联向量,该向量描述了特征之间的相关性,但是该向量往往表达的不够丰富。
发明内容
基于上述技术问题,本发明旨在通过Embedding方案减少训练样本时所占内存空间,且通过将连续性变量按照等距划分,将其离散化,为每个特征的每个取值都训练出一个关联向量,使得每一个取值最后都会有一个对应的向量,以丰富特征向量的表达能力。
本发明第一方面提供了一种文本处理方法,基于预先训练的优化的FM模型实现,所述方法包括:
获取待处理文本;
提取所述待处理文本中的所有关键词作为原始特征;
将所述原始特征经过Embedding处理转化为第一低维向量;
将所述原始特征进行特征交叉变换第二低维向量;
基于所述第一低维向量和第二低维向量,得到待处理文本所属类别的概率值。
在本发明一些实施例中,所述优化的FM模型包括:基于Embedding编码的线性层和经过变换的特征交叉层。
在本发明一些实施例中,将所述原始特征经过Embedding处理转化为第一低维向量,包括:
将所述原始特征输入基于Embedding编码的线性层;
经过Embedding处理转化为第一低维向量。
在本发明一些实施例中,将所述原始特征进行特征交叉变换第二低维向量,包括:
将所述原始特征输入经过变换的特征交叉层;
获得第二低维向量。
在本发明一些实施例中,所述基于所述第一低维向量和第二低维向量,得到待处理文本所属类别的概率值,包括:
将所述第一低维向量中的每一项进行求和,得到第一常量;
将所述第二低维向量中的每一项进行求和,得到第二常量;
将第一常量和第二常量相加并加上权重,得到待处理文本所属类别的概率值。
在本发明另一些实施例中,所述提取所述待处理文本中的所有关键词作为原始特征,包括:
提取所述待处理文本中的所有关键词;
将所述关键词进行数字化编码,将编码后的关键词作为原始特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于特斯联科技集团有限公司,未经特斯联科技集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210080649.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种料箱入库方法、设备、介质及产品
- 下一篇:一种移动机构耐用的平移门