[发明专利]词语的获取方法及装置、存储介质、处理器在审
申请号: | 201710414730.X | 申请日: | 2017-06-05 |
公开(公告)号: | CN108984514A | 公开(公告)日: | 2018-12-11 |
发明(设计)人: | 胡晓;谢心哲 | 申请(专利权)人: | 中兴通讯股份有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 江舟;董文倩 |
地址: | 518057 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 词语 预设 文本特征 词语集合 词语序列 存储介质 候选词语 指标信息 处理器 过滤 集合 人力物力 筛选指标 完备性 筛选 融合 发现 | ||
1.一种词语的获取方法,其特征在于,包括:
提取确定的词语序列中的多个文本特征,并确定每个所述文本特征对应的指标信息;
通过预设词语长度阈值对所述词语序列中的词语进行过滤,提取出满足所述预设词语长度阈值的词语集合;
融合多个所述文本特征对应的指标信息得到指标阈值,并通过所述指标阈值对满足所述预设词语长度阈值的词语集合过滤,提取出满足所述指标阈值的候选词语集合;
根据预设的筛选指标对所述候选词语集合进行筛选以获取指定词语。
2.根据权利要求1所述的方法,其特征在于,所述词语序列中的通过以下方式确定:
对输入的原始语料进行分词处理后,获取分词结果;
按照所述分词结果中词语出现的顺序,将所述分词结果转化为所述词语序列。
3.根据权利要求2所述的方法,其特征在于,提取所述词语序列中的多个所述文本特征,并确定出每个所述文本特征对应的所述指标信息,包括以下至少之一:
对所述词语序列中的每个词语进行频率统计,并根据频率统计的结果确定所述词语序列的词语的出现频率;
对所述词语序列中的每个词语的相邻字符串之间的互信息量PMI进行统计,并根据统计的结果按照所述词语出现的顺序确定所述词语序列的PMI序列;
对所述词语序列中的每个词语的对称条件概率SCP进行统计,并根据统计的结果按照所述词语出现的顺序构成所述词语序列的SCP序列;
对所述词语序列中的每个词语的邻接熵进行统计,并根据统计的结果按照所述词语出现的顺序确定所述词语序列的邻接熵序列;
对所述词语序列中的每个词语的定词重叠率以及长度信息增益进行统计,并根据统计的结果按照所述词语出现的顺序确定所述词语序列的信息量序列。
4.根据权利要求3所述的方法,其特征在于,其中,所述相邻字符串为所述词语中的左最长子串和右最长子串。
5.根据权利要求3所述的方法,其特征在于,至少通过以下公式融合所述指标信息得到所述指标阈值a:
a=α·a1+β·a2+γ·a3+δ·a4+θ·a5;
其中,α,β,γ,δ以及θ为数值不小于0的条件系数,同时α+β+γ+δ+θ=1,a1为所述词语序列的出现频率,a2为所述词语序列的PMI序列,a3为所述词语序列的SCP序列,a4所述词语序列的邻接熵序列,a5为所述词语序列的信息量序列。
6.根据权利要求2所述的方法,其特征在于,根据预设的筛选指标对所述候选词语集合进行筛选以获取词语指定词语,包括以下至少之一:
判断所述候选词语集合中的每个词语出现的频率是否大于预设词语频率阈值,将频率大于预设词语频数阈值所对应的词语判定为所述指定词语;
判断所述候选词语集合中的每个词语是否属于停用词表中的词语,将不属于所述停用词表的词语判定为指定词语;
判断所述候选词语集合中每个字符串中的最长子字符串的出现频率是否等于该最长子字符串的父字符串的出现频率,将出现概率等于所述父字符串的出现频率的所述最长子字符串判定为不是指定词语;
判断所述候选词语集合中的每个词语是否属于用户词典中的词语,将属于所述用户词典的词语判定为不是指定词语。
7.根据权利要求1-6任一项所述的方法,其特征在于,应用于apache spark平台。
8.一种词语的获取装置,其特征在于,包括:
确定模块,用于提取确定的词语序列中的多个文本特征,并确定出每个所述文本特征对应的指标信息;
第一过滤模块,用于通过预设词语长度阈值对所述词语序列中的词语进行过滤,提取出满足所述预设词语长度阈值的词语集合;
第二过滤模块,用于融合多个所述文本特征对应的指标信息得到指标阈值,并通过所述指标阈值对满足所述预设词语长度阈值的词语集合过滤,提取出满足所述指标阈值的候选词语集合;
筛选模块,用于根据预设的筛选指标对所述候选词语集合进行筛选以获取词语指定词语。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中兴通讯股份有限公司,未经中兴通讯股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710414730.X/1.html,转载请声明来源钻瓜专利网。