[发明专利]一种基于fasttext的垃圾信息识别方法在审
申请号: | 202111471317.X | 申请日: | 2021-12-04 |
公开(公告)号: | CN114385796A | 公开(公告)日: | 2022-04-22 |
发明(设计)人: | 许文波;毕宇峰;谭志昊;高源;张时洁;王树臣;张钰琪;贾海涛 | 申请(专利权)人: | 电子科技大学长三角研究院(湖州) |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 313001 浙江省湖州市西*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 fasttext 垃圾 信息 识别 方法 | ||
1.一种基于fasttext的垃圾信息识别方法,其特征在于,包括下列步骤:
步骤1:通过n-gram处理信息文本;
步骤2:使用Word-Embedding将文本单词转化为词向量;
步骤3:根据改进的TF-IDF-N算法计算每个词向量权重,然后筛选出关键的特征词向量;
步骤4:将筛选出的关键特征词向量送入隐藏层进行向量叠加平均表示;
步骤5:使用softmax函数计算信息类型预测值。
2.如权利要求1所述方法,其特征在于,步骤3中将TF-IDF算法进行改进,将同类文本和不同文本之间的关系考虑进去,引入参数类频,来代表特征词在某类中出现的次数。
3.如权利要求1所述方法,其特征在于,步骤3中将改进后的TF-IDF算法与n-gram模型结合,形成新的TF-IDF-N算法对n-gram操作后的词进行特征筛选,根据特征词权重保留高区分度的词,去掉低区分度的词。从而消减了fasttext模型的噪声数据,保留更具代表性的特征词序列。
4.如权利要求1所述方法,其特征在于,步骤5中使用分层softmax函数作为loss函数的参数训练,不仅能提升模型判断的精度,而且可以缩短样本训练时间。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学长三角研究院(湖州),未经电子科技大学长三角研究院(湖州)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111471317.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种处理剂及其制备方法和应用
- 下一篇:改善食醋风味的醋酸菌及其构建方法
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置