[发明专利]词语筛选方法、装置、计算机可读存储介质及电子设备有效
申请号: | 202011300421.8 | 申请日: | 2020-11-19 |
公开(公告)号: | CN112417130B | 公开(公告)日: | 2023-06-16 |
发明(设计)人: | 申进 | 申请(专利权)人: | 贝壳技术有限公司 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/33;G06F16/332;G06F40/284 |
代理公司: | 北京思源智汇知识产权代理有限公司 11657 | 代理人: | 毛丽琴 |
地址: | 300457 天津市滨海新区经济技术开发*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 词语 筛选 方法 装置 计算机 可读 存储 介质 电子设备 | ||
1.一种词语筛选方法,包括:
获取初始词语集合,其中,所述初始词语集合中的词语用于描述目标类型的物品,所述初始词语集合预先对预设语料库中的语句进行分词得到;
确定所述初始词语集合中的词语的属性信息;
基于所述属性信息,确定所述初始词语集合中的词语的筛选权重;
基于所述筛选权重,对所述初始词语集合进行筛选,得到筛选后词语集合;
所述确定所述初始词语集合中的词语的属性信息,包括:
对于所述初始词语集合中的词语,确定该词语是否被主动撰写过,如果是,基于该词语被主动撰写的次数,确定该词语对应的主动撰写权重,并将所述主动撰写权重确定为该词语的属性信息,其中,所述主动撰写权重用于表征该词语由物品推荐人员主动撰写而对该词语在展示时的针对性造成的影响。
2.根据权利要求1所述的词语筛选方法,其中,所述基于所述筛选权重,对所述初始词语集合进行筛选,得到筛选后词语集合,包括:
基于所述目标类型的物品的物品属性,对所述初始词语集合进行拆分,得到至少两个子集,其中,所述至少两个子集中的子集分别对应于一个物品属性;
基于所述筛选权重,对所述至少两个子集中的子集进行筛选,得到子集分别对应的筛选后词语集合。
3.根据权利要求1所述的词语筛选方法,其中,所述确定该词语对应的主动撰写权重,包括:
确定该词语在所述预设语料库中出现的总次数和被主动撰写的次数;
基于所述总次数与所述被主动撰写的次数的商确定主动撰写权重。
4.根据权利要求1或3所述的词语筛选方法,其中,所述确定所述初始词语集合中的词语的属性信息,包括:
对于所述初始词语集合中的词语,确定该词语是否对应于被转换物品,如果是,确定该词语对应的转换权重,并将所述转换权重确定为该词语的属性信息,其中,所述被转换物品是从初始状态转换为目标状态的物品。
5.根据权利要求4所述的词语筛选方法,其中,所述确定该词语对应的转换权重,包括:
确定所述初始词语集合对应的各个物品的总的被展示次数;
确定所述初始词语集合对应的各个物品中的被转换物品的数量;
基于所述总的被展示次数和所述被转换物品的数量的商,确定转换权重。
6.根据权利要求1所述的词语筛选方法,其中,所述确定所述初始词语集合中的词语的属性信息,包括:
确定所述初始词语集合中的词语的词频作为属性信息。
7.根据权利要求1所述的词语筛选方法,其中,在所述基于所述筛选权重,对所述初始词语集合进行筛选,得到筛选后词语集合之后,所述方法还包括:
响应于向所述预设语料库中添加语句,对添加的语句进行分词,得到添加词语集合;
将所述添加词语集合合并到所述初始词语集合,得到新的初始词语集合;
更新所述新的初始词语集合中的词语的筛选权重。
8.根据权利要求1所述的词语筛选方法,其中,在所述基于所述筛选权重,对所述初始词语集合进行筛选,得到筛选后词语集合之后,所述方法还包括:
基于所述筛选权重,从所述筛选后词语集合中提取预设数量的筛选后词语并显示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贝壳技术有限公司,未经贝壳技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011300421.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种智慧水利数据中台构建方法
- 下一篇:一种农业机械用零件清洗装置