[发明专利]文本关键词提取处理方法及系统有效
申请号: | 202210566334.X | 申请日: | 2022-05-24 |
公开(公告)号: | CN114742062B | 公开(公告)日: | 2022-08-23 |
发明(设计)人: | 唐绍祖;吴传文;卫晓祥 | 申请(专利权)人: | 启客(北京)科技有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/216;G06F16/335;G06K9/62 |
代理公司: | 北京中誉至诚知识产权代理事务所(普通合伙) 11858 | 代理人: | 张平力 |
地址: | 100192 北京市海淀区西小口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 关键词 提取 处理 方法 系统 | ||
1.一种文本关键词提取处理方法,其特征在于,包括:
获取企业介绍文本;
将所述企业介绍文本输入预设命名实体识别模型,以得到多个第一关键词;其中,所述预设命名实体识别模型是预先基于样本企业介绍文本对BERT模型训练得到的;
将所述企业介绍文本与指定主题词库进行匹配,以得到多个第二关键词;
基于TF-IDF算法对所述多个第一关键词以及所述多个第二关键词进行关键词提取处理,以生成企业关键词和企业关键词特征;
将所述企业关键词和所述企业关键词特征输入关键词排序模型,以得到第一企业关键词排序结果;其中,所述关键词排序模型是预先基于训练样本对XGBoost模型训练得到的,所述训练样本包括标注了不同标签的多个样本企业关键词和对应的样本企业关键词特征,所述标签与样本企业关键词对应的样本企业关键词特征相关且表征对应的样本企业关键词的重要程度。
2.根据权利要求1所述的方法,其特征在于,该方法还包括:
基于所述多个第一关键词、所述多个第二关键词以及所述企业关键词,确定最终的企业关键词;
将所述最终的企业关键词和所述企业关键词特征输入所述关键词排序模型,以得到第二企业关键词排序结果。
3.根据权利要求2所述的方法,其特征在于,所述将所述最终的企业关键词和所述企业关键词特征输入所述关键词排序模型之前,该方法还包括:
基于所述最终的企业关键词,确定指定关键词特征,所述指定关键词特征至少包括词长和/或与核心词汇的词向量相似度;
基于所述指定关键词特征和所述企业关键词特征,确定最终的企业关键词特征;
将所述最终的企业关键词和所述最终的企业关键词特征输入所述关键词排序模型,以得到第三企业关键词排序结果。
4.根据权利要求1~3任一项所述的方法,其特征在于,所述基于TF-IDF算法对所述多个第一关键词以及所述多个第二关键词进行关键词提取处理之前,该方法包括:
将所述多个第一关键词以及所述多个第二关键词作为所述TF-IDF算法分词处理过程中使用的词库,且将分词处理优先级均设置为最高,以使所述TF-IDF算法在分词过程优先处理。
5.根据权利要求1~3任一项所述的方法,其特征在于,所述第一企业关键词排序结果包括按重要程度由大到小排列的多组词集,该方法还包括:
删除所述按重要程度由大到小排列的多组词集中重要程度最小的一组词集,得到剩余组词集;
对所述剩余组词集中各组词集内的关键词分别进行排序,得到组内排序后的剩余组词集;
将所述组内排序后的剩余组词集合并得到最终的企业关键词排序结果。
6.根据权利要求5所述的方法,其特征在于,所述对所述剩余组词集中各组词集内的关键词分别进行排序,包括:
针对所述剩余组词集中的每一组词集,基于所述每一组词集中的关键词的词频和与核心词汇的词向量相似度对所述每一组词集中的关键词进行降序排序。
7.根据权利要求1~3任一项所述的方法,其特征在于,所述样本企业关键词和样本企业关键词特征是基于TF-IDF算法对样本企业介绍文本、第一样本关键词和第二样本关键词处理得到的,所述第一样本关键词是将所述样本企业介绍文本输入所述预设命名实体识别模型识别得到的,所述第二样本关键词是将所述样本企业介绍文本与所述指定主题词库进行匹配得到的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于启客(北京)科技有限公司,未经启客(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210566334.X/1.html,转载请声明来源钻瓜专利网。