[发明专利]企业选址意愿识别方法、系统、计算机设备以及存储介质有效
申请号: | 202211404794.9 | 申请日: | 2022-11-10 |
公开(公告)号: | CN115496062B | 公开(公告)日: | 2023-02-28 |
发明(设计)人: | 周泽伟;金霞;杨红飞 | 申请(专利权)人: | 杭州费尔斯通科技有限公司 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F40/30;G06F16/335;G06F16/35;G06F16/903 |
代理公司: | 青岛锦佳专利代理事务所(普通合伙) 37283 | 代理人: | 朱玉建 |
地址: | 310051 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 企业 选址 意愿 识别 方法 系统 计算机 设备 以及 存储 介质 | ||
1.一种企业选址意愿识别方法,其特征在于,包括如下步骤:
步骤1.根据输入的词语与新闻文章进行匹配度计算,筛选出与输入的词语相匹配的新闻文章;根据输入的词语与新闻文章进行匹配度计算的过程如下:
步骤1.1.首先根据文本字符串进行匹配,判断输入的词语word是否在新闻文章text中,若在,则该输入的词语与新闻文章的匹配度为1;
若输入的词语word不在新闻文章text中,则转到步骤1.2;
步骤1.2.计算词语word的词向量word_vector与新闻文章text的文本向量text_vector之间的语义相似分sim(word_vector,text_vector);
若sim(word_vector,text_vector)大于或等于threshold_sim,则选择新闻;
其中,threshold_sim为预设的选择新闻的阈值;
步骤2.根据企业选址意愿词库以及与该企业选址意愿词库的语义关系,从筛选出的新闻文章中,进一步筛选出有选址意愿的新闻文章,过程如下:
步骤2.1.若新闻文章中包含企业选址意愿词库中的至少一个词语,则该新闻被筛选出,并作为有选址意愿的新闻文章;否则,转到步骤2.2;
步骤2.2.计算企业选址意愿词库的平均词向量word_pick_list_vector与新闻文章text的文本向量text_vector之间的语义相似分sim(text_vector,word_pick_list_vector);
若语义相似分sim(text_vector,word_pick_list_vector)大于或等于预设的筛选新闻阈值threshold_sim_pick,则该新闻被筛选,并作为有选址意愿的新闻文章;
步骤3.利用文本分类模型对筛选出的有选址意愿的新闻文章进行行业分类;
步骤4.利用实体识别模型对筛选出的有选址意愿的新闻文章进行企业名称挖掘。
2.根据权利要求1所述的企业选址意愿识别方法,其特征在于,
所述步骤1.2中,语义相似分sim(word_vector,text_vector)的计算过程如下:
定义word_vector=[word_vector(w1),word_vector(w2),…,word_vector(wN)];
其中,word_vector(wj)表示词语word的词向量的第j个维度,N表示向量的维度,j∈[1,N];
定义text_vector=[text_vector(w1),text_vector(w2),…,text_vector(wN)];
其中,text_vector(wj)表示新闻文章text的文本向量text_vector的第j个维度;
text_vector(wj)的计算公式如下:
其中,word_i表示新闻文章text中第i个词语的词向量;
word_i=[word_i(w1),word_i(w2),…,word_i(wN)];
其中,word_i(wj)表示新闻文章text中第i个词语的词向量的第j个维度;
L表示新闻文章text中词语的个数,i∈[1,L];
则语义相似分sim(word_vector,text_vector)的计算公式如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州费尔斯通科技有限公司,未经杭州费尔斯通科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211404794.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种无人机及其桨叶模组
- 下一篇:组合物的用途、化妆品组合物及其应用