[发明专利]一种信息归类方法及系统有效

专利信息
申请号: 202310930285.8 申请日: 2023-07-27
公开(公告)号: CN116644339B 公开(公告)日: 2023-10-10
发明(设计)人: 邱发科;钱秋雷;姜金龙;高跃岭;李明旭;王义同 申请(专利权)人: 山东唐和智能科技有限公司
主分类号: G06F18/24 分类号: G06F18/24;G06F40/205;G06F40/284;G06F40/289;G06V10/764;G06V30/18;G06V30/19
代理公司: 山东道智永盛知识产权代理事务所(普通合伙) 37407 代理人: 张东立
地址: 261000 山东省潍坊市高新区新城街*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 信息 归类 方法 系统
【权利要求书】:

1.一种信息归类系统,其特征在于,包括:

信息采集模块,用以对推送信息进行采集;

分析模块,用以对推送信息中的推送文字和推送图像进行分析,以得到文字特征向量和文字分类影响率;所述分析模块设有文字预处理单元,用以对推送信息中的推送文字进行断句、去词和断词预处理,以得到推送文字中的分析词组;所述分析模块还设有关键词分析单元,用以对所述分析词组进行关键词分析,以得到推送文字在各预设分类下的文字特征向量;所述分析模块还设有图像预处理单元,用以根据图像灰度值对推送信息中的推送图像进行分区预处理;所述分析模块还设有特征分析单元,用以对预处理后的推送图像进行特征分析,以得到图像特征向量,并以此设置文字分类影响率;

推送分类模块,用以根据文字特征向量计算推送信息的文字分类权重,推送分类模块还用以根据计算的文字分类权重对推送信息的推送分类进行判断,推送分类模块还用以根据文字分类影响率对文字分类权重进行调整;

用户交互模块,用以获取用户对推送分类的反馈结果;

优化模块,用以在用户反馈结果为简单反馈时,对文字分类权重的计算结果进行优化,还用以在用户反馈结果为复杂反馈时,对推送信息的文字特征向量进行优化;所述优化模块设有分析优化单元,用以根据所述复杂反馈对推送文字的分析方法进行优化;所述优化模块还设有分类优化单元,用以根据简单反馈对文字分类权重的计算结果进行优化。

2.根据权利要求1所述的一种信息归类系统,其特征在于,所述文字预处理单元在对推送信息中的推送文字进行断句预处理时,根据推送文字中的标点符号对推送文字进行断句预处理,以获得多组长句;

所述文字预处理单元在对各组长句进行去词预处理时,根据无用关键词对各组长句进行去词预处理,去除各组长句中与无用关键词相同的文字,以形成多组短句;

所述文字预处理单元在对各组短句进行断词预处理时,设置断词间隔k,k∈N+且k≥2,从第j个文字开始进行断词预处理,其中j的取值范围为1≤j≤k-1,以获得多组分析词组。

3.根据权利要求1所述的一种信息归类系统,其特征在于,所述关键词分析单元针对不同的预设分类设有相应的预设分析关键词,通过分析出预设分析关键词在推送文字中的各维度信息对预设分析关键词的词直径和信息熵进行计算以获取推送文字在各预设分类下的文字特征向量;

所述关键词分析单元设有信息熵的计算公式如下:

E=-(N1/(N1+N2)×log(N1/(N1+N2))+N2/(N1+N2)×log(N2/(N1+N2)))

其中,E表示预设分析关键词的信息熵,N1表示正分类推送文字数量,N2表示负分类推送文字数量;

所述关键词分析单元还设有词直径的计算公式如下:

R=R2-R1

其中,R表示预设分析关键词的词直径,R1表示预设分析关键词首次出现位置编号,R2表示预设分析关键词末次出现位置编号。

4.根据权利要求1所述的一种信息归类系统,其特征在于,所述图像预处理单元在对推送图像进行分区预处理时,所述图像预处理单元根据灰度阈值对推送图像进行区域划分,将灰度平均值小于灰度阈值的区域作为图形区域,以形成若干图形区域,所述图像预处理单元在设置灰度阈值时,建立平面直角坐标系作为推送图像坐标系,灰度阈值计算公式如下:

G1={f(x,y)|f(x,y)>T},G2={f(x,y)|f(x,y)≤T};

T=(u1+u2)/2;

重复计算过程,直至T≤ΔT;

其中,G1表示灰度大于灰度阈值的像素集合,G2表示灰度小于等于灰度阈值的像素集合,f()表示像素灰度值,x表示像素横坐标,y表示像素纵坐标,T表示灰度阈值,u1表示所有灰度大于灰度阈值的像素的平均灰度值,u2表示u1表示所有灰度小于等于灰度阈值的像素的平均灰度值,ΔT表示迭代截止参数。

5.根据权利要求4所述的一种信息归类系统,其特征在于,所述特征分析单元在对区域划分后的推送图像进行特征分析时,统计每个图形区域的灰度梯度作为该图形区域的图像特征向量,并分别将各图形区域的图像特征向量与各预设分类的预设图像分类特征向量进行比对,并根据比对结果设置各预设分类的文字分类影响率。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东唐和智能科技有限公司,未经山东唐和智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202310930285.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top