[发明专利]企业关联词的选取方法、设备和存储介质在审
申请号: | 202010547677.2 | 申请日: | 2020-06-16 |
公开(公告)号: | CN111737553A | 公开(公告)日: | 2020-10-02 |
发明(设计)人: | 龚朝辉 | 申请(专利权)人: | 苏州朗动网络科技有限公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/33 |
代理公司: | 苏州威世朋知识产权代理事务所(普通合伙) 32235 | 代理人: | 董燕 |
地址: | 215000 江苏省苏州市*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 企业 关联词 选取 方法 设备 存储 介质 | ||
本发明揭示了一种企业关联词的选取方法、设备和存储介质,所述方法包括:获取初步筛选的与某个企业相关的新闻和新闻量N1;使用待选取关联词对所述与企业相关的新闻进行关联处理,得到与所述待选取关联词相关的新闻量N2;根据所述待选取关联词的关联比,判断所述待选取关联词是否可用作正式的企业关联词,其中,所述待选取关联词的关联比=N2/N1。与现有技术相比,本发明企业关联词的选取方法,可以对前端录入的企业关联词进行监控和管理,选取符合要求的企业关联词对企业新闻进行关联,避免直接使用前端录入的企业关联词带来的不可控影响。
技术领域
本发明涉及互联网技术领域,特别是涉及一种企业关联词的选取方法、设备和存储介质。
背景技术
在大数据时代,各种各样的新闻文本不断增多。想要获取某个企业的相关新闻,一般通过选取关联词的方式,获取新闻文本与这个企业之间的关联程度,从而筛选出一批关联新闻。
因此,关联词的选取很关键,错误的关联词可能导致关联的新闻出现不可控的影响。
发明内容
本发明的目的在于提供一种企业关联词的选取方法、设备和存储介质。
为实现上述发明目的之一,本发明一实施方式提供一种企业关联词的选取方法,所述方法包括:
获取初步筛选的与某个企业相关的新闻和新闻量N1;
使用待选取关联词对所述与企业相关的新闻进行关联处理,得到与所述待选取关联词相关的新闻量N2;
根据所述待选取关联词的关联比,判断所述待选取关联词是否可用作正式的企业关联词,其中,所述待选取关联词的关联比=N2/N1。
作为本发明一实施方式的进一步改进,所述“根据所述待选取关联词的关联比,判断所述待选取关联词是否可用作正式的企业关联词”具体包括:
若所述待选取关联词的关联比低于预定下限阈值,则判定所述待选取关联词不可用作正式的企业关联词。
作为本发明一实施方式的进一步改进,所述预定下限阈值为0.1%。
作为本发明一实施方式的进一步改进,所述“根据所述待选取关联词的关联比,判断所述待选取关联词是否可用正式的作企业关联词”还包括:
若所述待选取关联词的关联比大于或等于预定下限阈值,则抽样查看关联处理后的新闻,若抽样查看的新闻中超过预定占比的新闻是与所述企业相关联的新闻,则判定所述待选取关联词可用作正式的企业关联词。
作为本发明一实施方式的进一步改进,所述“使用待选取关联词对所述与企业相关的新闻进行关联处理”具体包括:
使用待选取关联词作为所述企业的关联词,计算所述关联词在每篇所述与企业相关的新闻中的TFIDF值,选取TFIDF值大于设定阈值的新闻,作为与所述关联词进行关联处理后的新闻。
作为本发明一实施方式的进一步改进,ElasticSearch将包括有企业关联词的所有新闻全部召回,得到初步筛选的与企业相关的新闻,其中所述企业关联词包括正式的企业关联词和待选取关联词;
ElasticSearch使用所述待选取关联词对所述企业相关的新闻进行关联处理,得到关联日志;
通过所述关联日志计算所述待选取关联词的关联比,通过所述关联比,判断所述待选取关联词是否可用作正式的企业关联词,其中,所述关联日志中包括使用某个待选取关联词关联前的新闻量N1和关联后的新闻量N2,所述关联比=N2/N1。
作为本发明一实施方式的进一步改进,所述方法还包括:
将前端录入的企业关联词作为待选取关联词,加入ElasticSearch词库的黑名单中;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州朗动网络科技有限公司,未经苏州朗动网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010547677.2/2.html,转载请声明来源钻瓜专利网。