[发明专利]一种金融领域近义词的扩展方法、装置及存储介质有效
申请号: | 202011206972.8 | 申请日: | 2020-11-03 |
公开(公告)号: | CN112380857B | 公开(公告)日: | 2022-07-29 |
发明(设计)人: | 蔡少波;陈凯;周异 | 申请(专利权)人: | 上海交通大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/247;G06F16/332;G06Q40/00 |
代理公司: | 上海恒慧知识产权代理事务所(特殊普通合伙) 31317 | 代理人: | 徐红银 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 金融 领域 近义词 扩展 方法 装置 存储 介质 | ||
本发明公开了一种金融领域近义词的扩展方法、装置及存储介质,该方法包括:从多个金融门户和/或网站获取金融语料;对获取的金融语料进行分词处理;分别计算每个单词最相近的单词;构建单词网络结构;利用可重叠社区发现算法建立具有社区结构的语料库;将每个社区归类出的单词存储至存储单元,当接收到检索词时,将检索词所在的社区输出。该装置包括:金融语料单元、分词处理单元、最相近的单词计算单元、单词网络结构构建单元、语料库建立单元以及社区输出单元。通过本发明,可以识别语义相似关系,当输入一个或多个金融词语时,可以输出意思相近的若干词语,无需用户具备专业领域的知识,可以大大降低用户的检索难度和时间,提高检索准确度。
技术领域
本发明涉及金融检索领域,特别涉及一种金融领域近义词的扩展方法、装置及存储介质。
背景技术
普通百姓对金融领域的检索有大量需求,但需要大量专业领域知识。如果用户对金融领域比较陌生时,很难检索到准确的词语。此时需要通过近义词的拓展方法提供更多选择,帮助用户确定下一步检索方向,以能满足用户的检索需求。
传统分类算法在处理语义相似关系时有局限,主要有文本相似度算法,词向量算法等。
现有技术中,通过文本相似度算法输出近义词,存在以下缺点:会挖掘出很多错误的同义词,尤其是在词语很短的时候,例如“周杰伦”和“周杰”就很有可能被认为是同义词。
现有技术中,通过词向量算法来输出近义词,存在以下缺点:(1)输出的数量难以界定。例如输出确定为Top20时,可能在第15个词时相似度已经很低,或者第21个词相似度很高却被遗漏的情况。(2)词向量算法只能接收一个单词输入,会出现具有歧义的情况。例如,输入火箭,输出导弹、姚明为近义词,而导弹和姚明意思并不相近。
发明内容
本发明针对上述现有技术中存在的问题,提出一种金融领域近义词的扩展方法、装置及存储介质,可以识别语义相似关系,当输入一个或多个金融词语时,可以输出意思相近的若干词语,实现近义词的扩展。
为解决上述技术问题,本发明是通过如下技术方案实现的:
本发明提供一种金融领域近义词的扩展方法,其包括:
从多个金融门户和/或网站获取金融语料;
对获取的所述金融语料进行分词处理;
分别计算分词处理后的每个单词最相近的单词;
利用所述分词处理与每个单词最相近的单词的结果构建单词网络结构;
根据所述单词网络结构,利用可重叠社区发现算法建立具有社区结构的语料库;
将每个社区归类出的单词存储至存储单元,当接收到检索词时,将所述检索词所在的社区输出。
较佳地,所述分词处理进一步为:分成具有上下文关系的两个或两个以上单词。
较佳地,所述分别计算分词处理后的每个单词最相近的单词之前还包括:预先获得每个单词的向量表示。
较佳地,所述分别计算分词处理后的每个单词最相近的单词,包括:
采用word2vec获得每个单词的向量表示;
根据得到的每个单词的向量表示,计算得到每个单词最相近的单词。
较佳地,所述利用所述分词处理与每个单词最相近的单词的结果构建单词网络结构,包括:每个单词为一个网络节点,如果两者是相近的,两者之间形成一条边。
较佳地,所述利用可重叠社区发现算法建立具有社区结构的语料库,包括:
找到单词网络结构中的大小为K的完全子图,其中完全子图是指K个节点全部相连构成的图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011206972.8/2.html,转载请声明来源钻瓜专利网。