[发明专利]基于hash存储的网络词汇语义分析方法和系统有效
申请号: | 201810917995.6 | 申请日: | 2018-08-13 |
公开(公告)号: | CN109145297B | 公开(公告)日: | 2022-06-10 |
发明(设计)人: | 张楠;谢彬;李程;刘立;佘平 | 申请(专利权)人: | 华东计算技术研究所(中国电子科技集团公司第三十二研究所) |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F16/901;G06F16/13 |
代理公司: | 上海段和段律师事务所 31334 | 代理人: | 李佳俊;郭国中 |
地址: | 201800 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 hash 存储 网络 词汇 语义 分析 方法 系统 | ||
1.一种基于Hash存储的网络词汇语义分析方法,其特征在于,包括:
建立网络词汇对应关系步骤:收集网络词汇,对所收集的网络词汇,收集对应的传统词汇,依据所述网络词汇、传统词汇的一一对应关系建立(key,value)对,其中key为网络词汇,value为传统词汇,所述传统词汇是网络词汇的含义解释;
建立Hash链表结构步骤:确定Hash函数,将所述(key,value)对根据Hash函数计算得出Hash函数值,将所述Hash函数值、所述(key,value)对存储在Hash链表中;
定义网络词汇语义步骤:在Hash链表中查找所述网络词汇,并转化为传统词汇;
还包括,修正词汇二义性步骤:依据上下文的语义结构,结合贝叶斯定律,修正待解析词汇语义,判定所述待解析词汇是否是网络词汇;
所述建立Hash链表结构步骤包括:
定义Hash链表的节点结构步骤:定义Hash链表的节点结构,所述节点结构中至少包括两个指针,记为第一指针、第二指针,所述第一指针指向具有与所述网络词汇节点结构相同Hash函数值的下一个网络词汇节点,所述第二指针指向所述网络词汇节点结构中与所述网络词汇对应的传统词汇节点;
设计Hash函数步骤:根据固定时间段内网络词汇的数量,设定Hash链表的存储长度数值,设定Hash函数为f(X)=X%存储长度数值,其中X为网络词汇的uft-8码各个位的值的平方和,f(X)表示Hash函数值,符号%表示取模运算;
建立Hash链表步骤:根据所述存储长度数值建立Hash Node链表,将所述(key,value)对中的网络词汇进行Hash计算得出Hash函数值f(X),将(key,value)对中的key作为第一节点结构插入Hash Node链表的第f(X)位置,将(key,value)对中的value作为第二节点结构链接到第一节点结构的第二指针,所述第一节点结构的第一指针的指向存在以下两种情况之一:
-指向为null;
-指向与key具有相同Hash函数值f(X)的网络词汇所属的第三节点结构;
所述修正词汇二义性步骤包括:
初期判定词汇步骤:统计常见具有二义性的词汇的上下文依存语法关系,计算得出先验概率;
分析上下文依存语法步骤:对待解析词汇所处的上下文依存语法关系进行分析;
最终判定词汇步骤:计算待解析词汇作为网络词汇的概率P1,计算待解析词汇作为传统词汇的概率P2,若P1P2,则判定待解析词汇为网络词汇,若P1≤P2,则判定待解析词汇为传统词汇。
2.根据权利要求1所述的基于Hash存储的网络词汇语义分析方法,其特征在于,定义网络词汇语义步骤包括:
计算网络词汇的Hash函数值步骤:将待解析的网络词汇根据Hash函数计算得出Hash函数值f(X);
遍历查找网络词汇语义步骤:在Hash链表的f(X)位置处查找第一节点结构中的Key,判定是否与待解析的网络词汇相同,若不相同,则遍历第一节点结构的第一指针指向的Key值,遍历后得到的与待解析的网络词汇相同的key值,记为中间网络词汇;若相同,则取与待解析的网络词汇相同的key值,记为中间网络词汇;
获取传统词汇语义步骤:将所述中间网络词汇所在的第一节点结构的第二指针指向的value值,记为目标传统词汇,即为待解析的网络词汇对应的传统词汇语义。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东计算技术研究所(中国电子科技集团公司第三十二研究所),未经华东计算技术研究所(中国电子科技集团公司第三十二研究所)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810917995.6/1.html,转载请声明来源钻瓜专利网。