[发明专利]热点事件分类方法、装置及存储介质在审
申请号: | 201810252849.6 | 申请日: | 2018-03-26 |
公开(公告)号: | CN108595519A | 公开(公告)日: | 2018-09-28 |
发明(设计)人: | 王健宗;吴天博;黄章成;肖京 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27;G06K9/62 |
代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
地址: | 518000 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 热点事件 预设 信息文本 特征词 分词 预先确定 存储介质 事件类型 信息向量 方法提取 方式获取 概率算法 计算公式 事件分类 事件主题 数量用户 向量化 分类 服务器 发布 分析 | ||
1.一种热点事件分类方法,应用于电子装置,其特征在于,所述方法包括:
获取步骤:实时从预先确定的服务器中获取第一预设数量用户发布的信息文本;
分词步骤:利用预先确定的分词规则对上述信息文本进行分词,获得各个信息文本对应的分词;
确定步骤:提取出分词中预设的特征词,利用预先确定的概率算法确定该特征词对应的事件主题;
计算步骤:根据预设的计算公式,计算出该特征词对应的热点事件指标值;
分类步骤:判断热点事件指标值是否大于预设阈值,若热点事件指标值大于预设阈值,则利用预设的向量化方式获取该特征词对应的信息文本的信息向量,将所述信息向量输入预先训练的事件分类模型中,确定出该信息文本对应的事件类型。
2.根据权利要求1所述的热点事件分类方法,其特征在于,所述预设的计算公式如下:
其中,v代表事件发展的速度,a代表热点事件指标值,t代表时间点,T代表时间间隔,i为整数,ti代表第i个特征词出现的时间点,Xi代表第i个特征词出现的次数。
3.根据权利要求1所述的热点事件分类方法,其特征在于,所述预先确定的分词规则包括:
根据预设类型标点符号,将获取的各个信息文本拆分成短句;
根据词库中存储的词语,利用长词优先原则对每个短句进行分词。
4.根据权利要求1所述的热点事件分类方法,其特征在于,所述预先确定的概率算法包括:
在特征词与事件主题文本之间添加第二预设数量的隐含事件主题;
根据预先确定的隐含事件主题与特征词的映射关系,确定每个隐含事件主题含有的特征词的第一数量X1及每个特征词所属的隐含事件主题的第二数量X2,根据第一数量X1和第二数量X2确定每个特征词对各个隐含事件主题的第一选择概率P1=1/(X1*X2);
根据预先确定的隐含事件主题与事件主题的映射关系,确定每个事件主题含有的隐含事件主题的第三数量X3及每个隐含事件主题所属的事件主题的第四数量X4,根据第三数量X3和第四数量X4确定每个隐含事件主题对各个事件主题的第二选择概率P2=1/(X3*X4);
将第一选择概率P1和第二选择概率P2代入预先确定的概率计算公式,计算出每个特征词对各个事件主题的最终概率P3的分布。
5.根据权利要求4所述的热点事件分类方法,其特征在于,所述预先确定的概率计算公式如下:
P3=P1*P2
其中,P1代表第一选择概率,P2代表第二选择概率,P3代表最终概率。
6.根据权利要求1所述的热点事件分类方法,其特征在于,所述预设的向量化方式包括:
使用自动编码器对信息文本的用户信息进行编码,生成用户信息向量;
使用预先确定的词向量模型对该信息文本进行词向量编码,生成该信息文本的文本信息向量;
将用户信息向量与文本信息向量拼接起来生成该信息文本对应的信息向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810252849.6/1.html,转载请声明来源钻瓜专利网。