[发明专利]基于hash存储的网络词汇语义分析方法和系统有效
申请号: | 201810917995.6 | 申请日: | 2018-08-13 |
公开(公告)号: | CN109145297B | 公开(公告)日: | 2022-06-10 |
发明(设计)人: | 张楠;谢彬;李程;刘立;佘平 | 申请(专利权)人: | 华东计算技术研究所(中国电子科技集团公司第三十二研究所) |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F16/901;G06F16/13 |
代理公司: | 上海段和段律师事务所 31334 | 代理人: | 李佳俊;郭国中 |
地址: | 201800 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 hash 存储 网络 词汇 语义 分析 方法 系统 | ||
本发明提供了一种基于Hash存储的网络词汇语义分析方法和系统,收集网络词汇,对所收集的网络词汇,收集对应的传统词汇,依据所述网络词汇、传统词汇的一一对应关系建立(key,value)对,其中key为网络词汇,value为传统词汇;确定Hash函数,将所述(key,value)对根据Hash函数计算得出Hash函数值,按所述Hash函数值、所述(key,value)对存储在Hash链表中;在Hash链表中查找所述网络词汇,并转化为传统词汇;依据上下文的语义结构,结合贝叶斯定律,修正词汇语义的二义性,判定所述词汇是否是网络词汇。针对社交短文本中存在的大量网络用语现象,快速准确定位社交短文本中的网络用语。
技术领域
本发明涉及自然语言处理领域,具体地,涉及基于hash存储的网络词汇语义分析方法和系统。
背景技术
随着社交网络的蓬勃发展,人们更加习惯于在社交平台上记录日常生活以及发表对相关问题的看法,社交短文本大量的产生。分析和处理这些文本对于网络舆情的监控和热点事件的民意分析有着重要的作用。与传统文本不同的是,社交文本的严谨性不高,包含了大量有别于日常用语习惯的网络用语,而且这些网络用语往往跟情绪的表达有着重要的关系。传统的自然语言处理技术大多是针对符合日常用语习惯的词语、句子等进行分析,这使得计算机在处理网络用语方面存在着较大的不足。
现有的语义识别的方案主要有两种,一种是分析词语的结构组成,标注词语的词性,按照现有的语言规则来识别词语的语义;另外一种是利用卷积神经网络来对词语的语义矩阵进行处理,最终得到语义向量。对于分析词语结构的方法,由于需要对词性进行标注,所以工作量巨大,处理的效率相对较低。而且,网络用语一般不具有正常的语法结构,所以即使可以正确的标注其词性结构组成,依然无法正确获取它的语义。而利用卷积神经网络分析语义的方法对语义的原始矩阵具有较高的要求,原始矩阵一般通过word2vec获得,word2vec在对于网络用语的处理上尚不能满足要求。同时,卷积神经网络是对语义分析的黑盒实现,一旦发现算法对语义的提取不准确,很难找出合理的提升方案。由此可以看出,这两种传统的分析语义的方案都是针对于传统语言的,由于他们本身的局限性,很难处理社交网络中广泛流行的网络用语。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于Hash存储的网络词汇语义分析方法和系统。
根据本发明提供的一种基于Hash存储的网络词汇语义分析方法,包括:
建立网络词汇对应关系步骤:收集网络词汇,对所收集的网络词汇,收集对应的传统词汇,依据所述网络词汇、传统词汇的一一对应关系建立(key,value)对,其中key为网络词汇,value为传统词汇,所述传统词汇是网络词汇的含义解释;
建立Hash链表结构步骤:确定Hash函数,将所述(key,value)对根据Hash函数计算得出Hash函数值,将所述Hash函数值、所述(key,value)对存储在Hash链表中;
定义网络词汇语义步骤:在Hash链表中查找所述网络词汇,并转化为传统词汇。
优选地,基于Hash存储的网络词汇语义分析方法还包括,修正词汇二义性步骤:依据上下文的语义结构,结合贝叶斯定律,修正待解析词汇语义,判定所述待解析词汇是否是网络词汇。
优选地,所述建立Hash链表结构步骤包括:
定义Hash链表的节点结构步骤:定义Hash链表的节点结构,所述节点结构中至少包括两个指针,记为第一指针、第二指针,所述第一指针指向具有与所述网络词汇节点结构相同Hash函数值的下一个网络词汇节点,所述第二指针指向所述网络词汇节点结构中与所述网络词汇对应的传统词汇节点;
设计Hash函数步骤:根据固定时间段内网络词汇的数量,设定Hash链表的存储长度数值,设定Hash函数为f(X)=X%存储长度数值,其中X为网络词汇的uft-8码各个位的值的平方和,f(X)表示Hash函数值,符号%表示取模运算;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东计算技术研究所(中国电子科技集团公司第三十二研究所),未经华东计算技术研究所(中国电子科技集团公司第三十二研究所)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810917995.6/2.html,转载请声明来源钻瓜专利网。