[发明专利]一种基于历史时间特征的文本库关键词精炼方法有效
申请号: | 201911219995.X | 申请日: | 2019-12-03 |
公开(公告)号: | CN111046141B | 公开(公告)日: | 2023-07-18 |
发明(设计)人: | 辛宇;刘方然;吴伟平 | 申请(专利权)人: | 新华智云科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/335;G06F16/34 |
代理公司: | 杭州裕阳联合专利代理有限公司 33289 | 代理人: | 姚宇吉 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 历史 时间 特征 文本 关键词 精炼 方法 | ||
1.一种基于历史时间特征的文本库关键词精炼方法,其特征在于,包括:
步骤1,预设历史时间段和当日时间;
步骤2,提取一段时间内每篇文本的关键词并给每个关键词计算一个权重;
步骤3,通过权重系数对步骤2处理后的关键词进行权重处理,并存储得到历史候选关键词表;权重系数包括:根据文本时间的特征确定权重系数;
步骤4,利用历史候选关键词表的每个关键词在历史时间段内的频次波动情况对当日时间关键词权重进行调整;
步骤4.1 根据步骤3得到的历史候选关键词表,计算每个关键词历史时间段内的每一天当日关键词频次的均值和方差,并得到标准差,标准差除以均值得到变异系数;
步骤4.2 根据关键词频次的方差、均值、变异系数判断关键词是否是泛词以及关键词是否具有时效性,从而对当日时间关键词的权重进行调整;
其中,根据关键词频次的方差、均值、变异系数对当日时间关键词权重进行调整步骤如下:
步骤4.2.1 判断当日关键词频次是否大于均值与方差值总和,若否,进入第4.2.2;若是,进入4.2.3;
步骤4.2.2 判断是否当日频次等于均值且变异系数大于预设系数y,若是,维持权重或提高权重;若否,进入步骤4.2.4;
步骤4.2.3 判断关键词方差是否等于0,若是,降低权重;若否,进入步骤4.2.5;
步骤4.2.4 判断当日频次乘以预设系数z是否小于1,若是,维持权重或提高权重;若否,降低权重;
步骤4.2.5判断变异系数是否小于预设系数d,若是,降低权重;若否,计算:关键词权重*(1+(k/50));k:当日频次除以均值。
2.根据权利要求1所述的基于历史时间特征的文本库关键词精炼方法,其特征在于,
步骤3.1,通过权重系数对筛选后的关键词进行权重处理,并排序;
步骤3.2,计算每个关键词与其他关键词同时在所有文本中出现的次数;
步骤3.3,根据步骤3.2中关键词同时出现的次数判断关联关键词,剔除冗余数据,得到候选关键词表;
步骤3.4,计算每日候选关键词表并储存,得到历史关键词表。
3.根据权利要求1或2所述的基于历史时间特征的文本库关键词精炼方法,其特征在于,权重系数包括时间衰减系数,具体的:
计算当日时间获取到的所有文本中每一个关键词的频次,以及每一个关键词对应所有文本的发布时间与当日时间的差值数组;将差值数组中每一个差值取对数后输入时间衰减函数并累加即可得到时间衰减系数,根据时间衰减系数对关键词进行权重处理;
时间衰减函数:f(x)=log(g(x)) / log(a);
其中g(x) = log(x+1),0a1,x为文本发布时间与当日时间的差值。
4.根据权利要求1或2所述的基于历史时间特征的文本库关键词精炼方法,其特征在于,权重系数包括极值时间系数,具体的:
计算每个关键词对应的所有文本中发布时间为当日时间的文本量与总量的比值Q,所述Q为极值时间系数;
预设有两个极值,通过Q与两个极值的比较,判断关键词的时效性并进行权重调整;
总量:每个关键词对应的所有文本量。
5.根据权利要求1或2所述的基于历史时间特征的文本库关键词精炼方法,其特征在于,权重系数包括关键词质量系数,具体的:
统计每个关键词所有来源的文本量,计算最大的来源量与所有来源量比值P,比值P越大来源丰富性越低,根据比值P设定关键词质量系数。
6.根据权利要求1或2所述的基于历史时间特征的文本库关键词精炼方法,其特征在于,权重系数还包括文本的类型,突出重要的、携带信息多的关键词的权重,降低文本量大的类型权重,得到文本类型权重。
7.根据权利要求1或2所述的基于历史时间特征的文本库关键词精炼方法,其特征在于,权重系数还包括文本热度,即关键词所对应的所有文本的点击量、转发量或转载量指标取对数后的累加值。
8.根据权利要求1所述的基于历史时间特征的文本库关键词精炼方法,其特征在于,
步骤2.1计算所有输入文本库中每篇文本的关键词权重均值,舍弃权重低于关键词权重均值的关键词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新华智云科技有限公司,未经新华智云科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911219995.X/1.html,转载请声明来源钻瓜专利网。