[发明专利]一种决策级中文分词融合方法有效
申请号: | 201410564432.5 | 申请日: | 2014-10-21 |
公开(公告)号: | CN104317882A | 公开(公告)日: | 2015-01-28 |
发明(设计)人: | 张春霞;梁峰;王树良;金福生;牛振东 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100081 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 决策 中文 分词 融合 方法 | ||
1.一种决策级中文分词融合方法,其特征在于包括以下步骤:
步骤一、利用任意三个中文分词工具分别对待处理文本中的句子进行分词;
步骤二、对得到的三个分词结果进行预处理,具体如下:
将待处理句子保存为字符串数组{s1,s2,…,sn},其中,n为自然数,表示句子中所有字符的个数,每个数组元素si(i=1,2,…,n)代表单个汉字、标点符号、数字或英文字符;获取三个分词工具的分词结果,连续的两个词语之间用一个空格分隔;
同时,构建三个整型数组,分别记录三个分词结果中每个非空格字符的位置索引,即,整型数组元素记录字符串数组{s1,s2,…,sn}中si(i=1,2,…,n)在分词结果中的位置索引;
步骤三、对字符串数组{s1,s2,…,sn}和三个整型数组,利用决策级分词融合方法进行分词,具体如下:
首先,设三个整型数组为A={a1,a2,…,an}、B={b1,b2,…,bn}、C={c1,c2,…,cn},分别记录第一个、第二个、第三个分词结果中s1,s2,…,sn的位置索引,设三个分词工具的准确率为p1,p2,p3;
对于待处理句子的第i个字符si和第i+1个字符si+1,在分词结果中二者之间要么存在词语分隔标记空格,要么不存在空格;对于第i个和第i+1个字符在分词结果中的位置索引ai和ai+1,只能满足下述关系之一:若第i个字符和第i+1个字符之间不存在空格,则ai+1=ai+1;若它们之间存在空格,则ai+1=ai+2;
对于第i个和第i+1个字符在三个分词结果中的位置索引ai,,bi,ci和ai+1,bi+1,ci+1,若ai=bi=ci,由于在分词结果中第i个字符与第i+1个字符之间只能存在空格或者不存在空格,因此ai+1,bi+1,ci+1中任意两者要么相等,要么差值为1,此外,ai+1,bi+1,ci+1中至少存在两者相等;
在分词过程中,在判别第i(i=1,2,…,n)个字符的位置索引后,将三个整型数组中记录该字符在三个分词结果中的位置索引都赋值为分词融合方法中第i个字符的位置索引;
然后,采用决策级分词融合方法进行分词;过程如下:
对于待处理句子的第一个字符s1,有a1=b1=c1=1,则判别第1个字符的位置索引为a1;
对于待处理句子的第i(i=2,…,n)个字符,若ai=bi=ci,则判别第i个字符的位置索引为ai;
若ai=bi=ci不成立,根据整型数组的特征可知三个整型数组中记录三种分词结果的第i-1个字符的位置索引相同,即ai-1=bi-1=ci-1,并且ai,,bi,ci中存在两个数组元素的值相等;若ai=bi,则第i个字符在分词融合结果中的位置索引为ai的概率p=p1+p2+(1-p3);若ai=ci,则第i个字符在分词融合结果中的位置索引为ai的概率p=p1+(1-p2)+p3;若bi=ci,则第i个字符在分词融合结果中的位置索引为bi的概率p=(1-p1)+p2+p3;
当ai=bi时,若p≥0.5,则判别第i个字符的位置索引为ai;若ai<ci,根据整型数组的特征,可知ai+1=ci;将第三个分词结果的整型数组中第i个元素至最后一个元素的值减1;若ai>ci,根据整型数组的特征可知ai=ci+1;将第三个分词结果的整型数组中第i个元素至最后一个元素的值加1,然后继续处理第i+1个字符;
当ai=bi时,若p<0.5,则判别第i个字符的位置索引为ci;若ai<ci,根据整型数组的特征,可知ai+1=ci;将第一个和第二个分词结果的两个整型数组中第i个元素至最后一个元素的值加1;若ai>ci,根据整型数组的特征,可知ai=ci+1;将第一个和第二个分词结果的两个整型数组中第i个元素至最后一个元素的值减1;继续处理第i+1个字符;
当ai=ci时,若p≥0.5,则判别第i个字符的位置索引为ai;若ai<bi,根据整型数组的特征,可知ai+1=bi;将第二个分词结果的整型数组中第i个元素至最后一个元素的值减1;若ai>bi,根据整型数组的特征,可知ai=bi+1;将第二个分词结果的整型数组中第i个元素至最后一个元素的值加1,然后继续处理第i+1个字符;
当ai=ci时,若p<0.5,则判别第i个字符的位置索引为bi;若ai<bi,根据整型数组的特征,可知ai+1=bi;将第一个和第三个分词结果的两个整型数组中第i个元素至最后一个元素的值加1;若ai>bi,根据整型数组的特征,可知ai=bi+1;将第一个和第三个分词结果的两个整型数组中第i个元素至最后一个元素的值减1;继续处理第i+1个字符;
当bi=ci时,若p≥0.5,则判别第i个字符的位置索引为bi;若bi<ai,根据整型数组的特征,可知bi+1=ai;将第一个分词结果的整型数组中第i个元素至最后一个元素的值减1;若bi>ai,根据整型数组的特征,可知bi=ai+1;将第一个分词结果的整型数组中第i个元素至最后一个元素的值加1,然后继续处理第i+1个字符;
当bi=ci时,若p<0.5,则判别第i个字符的位置索引为ai;若bi<ai,根据整型数组的特征,可知bi+1=ai;将第二个和第三个分词结果的两个整型数组中第i个元素至最后一个元素的值加1;若bi>ai,根据整型数组的特征,可知bi=ai+1;将第二个和第三个分词结果的两个整型数组中第i个元素至最后一个元素的值减1;继续处理第i+1个字符,重复上述过程直至处理完句子中所有字符;
步骤四、对未登录词进行识别,具体如下:
设k=1,k为整数;
第一步,在对句子分词的结果中,从第k个词语开始,分别将连续两个、三个、四个相邻的词语合并为候选未登录词w1,w2,w3;
第二步,将候选未登录词作为关键词提交到网络上搜索候选未登录词;
第三步,判断候选未登录词是否为有效的未登录词;
判断依据是候选未登录词在网络中存在相应的百科页面;具体而言,在网络页面返回结果的超文本标记语言Html源码中<title>标签包含候选未登录词;若w3为未登录词,则设置k=k+4,执行第四步,否则判断w2是否为未登录词;若w2为未登录词,则设置k=k+3,执行第四步,否则判断w1是否为未登录词;若w1为未登录词,则设置k=k+2,执行第四步,否则设置k=k+1,执行第四步;
第四步,若k<n,则返回第一步执行,否则结束循环。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410564432.5/1.html,转载请声明来源钻瓜专利网。