[发明专利]一种基于专用语料库字向量的无监督中文分词方法有效
申请号: | 201910366794.6 | 申请日: | 2019-05-05 |
公开(公告)号: | CN110263320B | 公开(公告)日: | 2020-12-11 |
发明(设计)人: | 江瑞;黄浩;鲁永浩 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F17/11;G16H10/60 |
代理公司: | 北京鸿元知识产权代理有限公司 11327 | 代理人: | 管士涛;曹素云 |
地址: | 100084 北京市海淀区1*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 专用 语料库 向量 监督 中文 分词 方法 | ||
1.一种基于专用语料库字向量的无监督中文分词方法,其特征在于,所述方法包括如下步骤:
步骤一、预处理语料库,得到在语料库上的每个字对应的字向量;
步骤二、根据所述字向量计算出字间粘连度;
步骤三、计算出最佳分词路径实现无监督中文分词,
其中,所述计算出最佳分词路径实现无监督中文分词,具体为,
设Q为对每一个字间隔求出的字间粘连度qi组成的向量,S为标记字间隔是否为分词间隔的分割标记si组成向量,若待分词的语句长度为n,则两个向量的长度均为n-1,其中qi为字间粘连度,qi∈[0,1];si为分割标记,si∈{0,1},w为最大词长,则最佳分词路径的计算如下:
目标函数:maxS QS;
约束条件:
根据上述目标函数和约束条件求出最佳分词路径即分割向量S,从而实现无监督中文分词。
2.根据权利要求1所述的基于专用语料库字向量的无监督中文分词方法,其特征在于,所述步骤一还包括,将语料库预处理,将每个字分隔开,利用开源库gensim中的word2vec模型来进行字向量的训练,由此得到在语料库上的每个字对应的字向量。
3.根据权利要求1所述的基于专用语料库字向量的无监督中文分词方法,其特征在于,所述根据所述字向量计算出字间粘连度包括通过一定窗范围内的多个字向量余弦距离综合计算出一个字间粘连度。
4.根据权利要求3所述的基于专用语料库字向量的无监督中文分词方法,其特征在于,所述通过一定窗范围内的多个字向量余弦距离综合计算出一个字间粘连度,具体为,对于一个字间隔,语句中假设的最长语义依赖距离为L,给定窗宽度为2L,则字间隔前后L个字共可求得L个字向量的余弦距离,对这L个字向量的余弦距离进行加权求和平均的操作,得到该字间隔对应的字间粘连度。
5.根据权利要求4所述的基于专用语料库字向量的无监督中文分词方法,其特征在于,计算所述字间粘连度具体过程如下:
Q={q0,q1,...,qn}为粘连度向量,qi表示第i个字符和第i+1个字符之间的粘连度,qi的具体计算方法如下:
di,j=cosvi,vj
其中,a∈(0,1)为距离衰减系数,当两个字距离较远时,将他们的相似度进行衰减;vi表示句子中第i个字符的字向量,vj表示句子中第j个字符的字向量,di,j表示vi与vj的余弦距离,L为语句中假设的最长语义依赖距离。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910366794.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于网页文本的学者观点抽取方法
- 下一篇:一种情感词典构建方法及系统