[发明专利]一种基于统计和浅层语言分析的维吾尔文语义串抽取方法有效
申请号: | 201710252962.X | 申请日: | 2017-04-12 |
公开(公告)号: | CN107092675B | 公开(公告)日: | 2020-08-18 |
发明(设计)人: | 吐尔地·托合提;艾斯卡尔·艾木都拉;米吉提·阿不里米提;玛依热·依布拉;热合木·马合木提;哈妮克孜·伊拉洪 | 申请(专利权)人: | 新疆大学 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F40/289;G06F40/30 |
代理公司: | 西安研创天下知识产权代理事务所(普通合伙) 61239 | 代理人: | 郭璐 |
地址: | 830046 新疆维*** | 国省代码: | 新疆;65 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 统计 语言 分析 维吾尔文 语义 抽取 方法 | ||
1.一种基于统计和浅层语言分析的维吾尔文语义串抽取方法,其特征在于,所述方法包括;
步骤1确定文本索引结构及定义模式规则:
确定包括词典、一级索引、二级索引的三层索引结构;定义文本中的可信频繁模式;定义频繁模式发现中的语言规则;
步骤2频繁模式发现;
大规模文本中维吾尔文频繁模式发现步骤具体包括:
步骤2A建索引;
对于经过预处理的文本集,首先按单词在文本中出现的顺序建立词典,然后对于生成的单词ID序列建词索引;
步骤2B串扩展及频繁模式发现;
让所有单词ID进入一个队列中,然后根据每个单词的索引信息从每个单词扩展得到其二词或三词串,让该单词出队并将新产生的扩展串入队,继续从n词串扩展到n+1词或n+2词串,反复迭代,直到队列为空;
步骤3串完整性评价及语义串抽取;
根据上下文邻接特征来判断每一个语义串候选的结构完整性,用公式(一)为每一个候选语义串赋权重:
AEweight(S)=min(LAE(S),RAE(S))
(一)
其中,AEweight(S)是串S的邻接熵权重,LAE(S)是串S的左邻接熵,RAE(S)是串S的右邻接熵,左邻接熵、右邻接熵按公式(二)计算:
其中,m是串S的左邻接种类数,ni是串S的第i个左邻接的频次,所有左邻接频次总和为N,计算邻接特征量所需要的全部信息在它们被发现时记录好并存入索引中,依次输出邻接特征量达到阈值的频繁模式,即为最终抽取到的语义串;
所述步骤1中的可信频繁模式具体为:
设S=w1w2…wn是一个长度为n的维吾尔文单词串,以空格隔开的n个单词序列,T=S1#S2#…Sm#是由m个单词串构成的文本语料,#标志文本中的各种标点符号;
定义1:对于单词串S=w1w2…wn,如果文本语料中至少存在两个位置pos1和pos2,并使得
则S称为语料T中的一个模式,也称为重复串;
定义2:根据事先设定的各个参数阈值,如果Support(S)>minsup,minsup为最小支持度或Frequency(S)>minFreq,minFreq为最小出现频次,则称S为语料T中的频繁模式,如Confidence(S)>minconf,minconf为最小置信度,则可确定S为可信频繁模式;
设wi-1wi是语料T中维吾尔文词对,wi-1是上文,wi是下文,观察候选频繁模式S=(wi-1wi)是否为可信频繁模式时,将Frequency(S)>2,minFreq=2的模式都选为频繁模式,再评价wi-1→wi的置信度Confidence(wi-1→wi)来选取可信频繁模式;
置信度Confidence(wi-1→wi)是指上文wi-1出现的情况下,其下文出现wi的后验概率,是对单词关联wi-1→wi的准确度的衡量,当Confidence(wi-1→wi)>minconf时,可确定S=(wi-1wi)是一个可信频繁模式,按公式(三)计算:
定义3:逆置信度是指单词关联wi-1→wi的下文wi出现的情况下,其上文是wi-1的条件概率,按公式(四)计算:
定义4:对于语料T中的一个频繁模式S,如Confidence(S)>minconf或R-Confidence(S)>minconf,则可确定S为可信频繁模式。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新疆大学,未经新疆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710252962.X/1.html,转载请声明来源钻瓜专利网。