[发明专利]一种基于纠错输出编码的无需消歧的无监督词性标注方法有效
申请号: | 201610292680.8 | 申请日: | 2016-05-05 |
公开(公告)号: | CN105955955B | 公开(公告)日: | 2018-08-28 |
发明(设计)人: | 周德宇;徐海洋;张致恺 | 申请(专利权)人: | 东南大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 彭雄 |
地址: | 211189 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于纠错输出编码的无需消歧的无监督词性标注方法,包括两个主要步骤:(1)基于词性字典生成训练数据。(2)基于纠错输出编码进行训练与测试。本发明不需标注语料,可以应用于不易获得标注语料的语言的词性标注问题;不需消歧,避免了迭代式消歧过程中的错误传播问题;采用神经语言模型自动生成训练和测试使用的特征,避免了手动选取和构建特征。 | ||
搜索关键词: | 一种 基于 纠错 输出 编码 无需 监督 词性 标注 方法 | ||
【主权项】:
1.一种基于纠错输出编码的无需消歧的无监督词性标注方法,其特征在于,包括以下步骤:步骤1,将无标记的语料库U中的每个单词ωi通过基于神经语言模型转化为一个特征向量,其中,i=1…n,n为语料库U单词的个数;将每个单词ωi的特征向量以及其相邻单词的特征向量一起形成该单词的上下文特征φ(ωi);从词性词典D中获取每个单词的候选标记集合将每个单词ωi、其上下文特征φ(ωi)以及该单词的候选词性集合构成训练数据集T中的一个训练样本步骤2,在基于纠错输出编码进行训练与测试编码阶段中,构造一个|O|×L的编码矩阵M∈{+1,‑1}|O|×L,其中,O表示词性标记列表,|0|表示不同的词性标记的个数,L表示编码长度;编码矩阵中的第j行M(j,:)表示标记类yj的L位的编码;编码矩阵的第l列M(:,l)指定了标记空间y的划分,即以及通过把来自的样本作为正类样本,来自的样本作为负类样本为编码矩阵的每一列构建一个二类分类器;对训练数据集T中的一个训练样本在构建一个二类分类器hl时,仅当全部落入或中时,该训练样本才被视为一个正类的或负类的训练样本;否则,将不会参与hl的训练过程;步骤3,将待测试数据中的每个待测单词ω*通过基于神经语言模型转化为一个特征向量,进而得到每个待测单词的上下文特征φ(ω*);将得到的上下文特征φ(ω*)根据其编码长度和步骤2得到的分类器进行编码分类,生成相应编码h(ω*):步骤4,将待测试数据中的待测单词ω*从词性词典D中获取其对应的候选标记集合将待测单词ω*的候选标记集合中的每个词性的编码与步骤3得到的编码h(ω*)的距离最小的词性作为单词ω*的最终预测结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610292680.8/,转载请声明来源钻瓜专利网。
- 上一篇:一种商家总体评论中方面评分的确定方法及装置
- 下一篇:一种分词系统