[发明专利]一种关键词关联性分析方法在审
申请号: | 202110367401.0 | 申请日: | 2021-04-06 |
公开(公告)号: | CN113434666A | 公开(公告)日: | 2021-09-24 |
发明(设计)人: | 廖丽娟;林巍 | 申请(专利权)人: | 西安理工大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33;G06N3/04;G06N3/08 |
代理公司: | 西安弘理专利事务所 61214 | 代理人: | 戴媛 |
地址: | 710048 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 关键词 关联性 分析 方法 | ||
本发明公开了一种关键词关联性分析方法,具体按照以下步骤实施:根据用户输入的关键词k,从数据库中搜寻出含有关键词的文本资料,判别关键词类别;计算第n份文本资料中的第m个词wm,n的权重系数θ;将文本资料D的所有词形成关联词序列W={w1,…wi},wi∈sw,其中sw表示事先存储在数据库中的词w的关联类别集合;根据特定时间区段内与包含关联词的多篇文本资料,并根据该些文本资料,针对每个关联词重复前述步骤,获得每个关联词的关联关键词,根据关键词、关联词、关联关键词产生关联性分析图,作为分析结果。本发明方法能够有效、准确的从网络信息中获取同关键词下公司与公司间或不同关键词间的差异或相似处。
技术领域
本发明属于文字处理技术领域,涉及一种关键词关联性分析方法。
背景技术
对于金融研究员来说,常常需要从各关键词近期的新闻以及近期在社群媒体上针对各关键词进行探讨的文章中找寻关键议题。此外,各关键词近期的新闻以及近期在社群媒体上针对各关键词进行探讨的文章也常透露出同关键词下公司与公司间或是不同关键词间的差异或相似处。
然而,由于网络信息量巨大,要从各关键词近期的新闻以及近期在社群媒体上针对各关键词进行探讨的文章中整理出关键议题,还要进一步整理出不同关键词的差异或相似处。然而,由于网络信息量巨大,我们收集的语料中关键词之间的核心联系往往被错误的信息所覆盖。若能够有效地从网络信息中整理出关键联系,并进一步整理出同关键词下公司与公司间或是不同关键词间的差异或相似处,研究员便有机会能根据时事判断事件或关联词、转型契机或是潜在的危机。
发明内容
本发明的目的是提供一种关键词关联性分析方法,能够有效、准确的从网络信息中获取同关键词下公司与公司间或不同关键词间的差异或相似处。
本发明所采用的技术方案是一种关键词关联性分析方法,具体按照以下步骤实施:
步骤1,根据用户输入的关键词k,从数据库中搜寻出含有关键词的文本资料,判别关键词类别;
步骤2,设数据库中的全体文本资料为D={d1,…dn},每份文本资料dn={w1,n,…wm,n},其中,wm,n表示第n份文本资料中的第m个词,含有关键词的文本资料为集合Dk={d1,…,dk},计算第n份文本资料中的第m个词wm,n的权重系数θ;
将文本资料D的所有词形成关联词序列W={w1,…wi},wi∈sw,其中sw表示事先存储在数据库中的词w的关联类别集合;
步骤3,根据特定时间区段内与包含关联词的多篇文本资料,并根据该些文本资料,针对每个关联词重复步骤1和步骤2,获得每个关联词的关联关键词,根据关键词、关联词、关联关键词产生关联性分析图,作为分析结果。
本发明的特征还在于:
步骤1中,判别关键词类别的过程为:通过对数据库中的文本资料进行word2vec的预训练,训练结束后,再对关键词进行标记生成关联数据,用于3层深度卷积神经网络的训练,并使用3层深度卷积神经网络模型对各个关键词进行分类,得到关键词的类别。
步骤1中数据库通过爬虫软件获取互联网上每日更新的新闻文本。
步骤2中,权重系数θ的表达式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110367401.0/2.html,转载请声明来源钻瓜专利网。