[发明专利]一种基于平均感知器算法的词性标注方法在审
申请号: | 201810561207.4 | 申请日: | 2018-06-04 |
公开(公告)号: | CN109062887A | 公开(公告)日: | 2018-12-21 |
发明(设计)人: | 邵玉斌;郭海震;龙华;杜庆治 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 词性 词性标注 感知器 训练集 算法 句子 标注 自然语言处理技术 预处理 嵌套 单词词性 单词信息 模型文件 数据结构 对设备 语料库 字节流 末尾 准确率 比对 字典 保存 返回 概率 更新 | ||
1.一种基于平均感知器算法的词性标注方法,其特征在于:
(1)从语料库中读取训练数据:从语料库中读取单词,当读取到“句号”时,代表是一个句子的结尾,将前面的若干单词组成为一句话,,将每句话存储在sentence变量中,然后将sentence加到train_data列表中作为训练集;
(2)从train_data中读取一句话,其中:单词为words列表,词性为tags列表;
(3)对步骤(2)获得的单词进行预处理;
(4)对于步骤(3)words列表前后加上特殊字符,防止处理第一个或最后一个单词时报错;
(5)对步骤(3)获得的words列表中的单词进行词性标注,依次进行如下操作:在高频字典中查找该词对应词性,如果有,则该词词性确定;如果没有,则提取该词特征;
(6)用步骤(4)提取的单词特征预测单词词性,并根据预测结果更新权重;
(7)判断train_data是否处理完,如果没处理完,则循环步骤(2)至步骤(6),如果处理完,则进行下一步;
(8)平均权重,并将每个特征对应的各个词性及权重用嵌套字典的数据结构存储并以字节流的方式保存在本地;
(9)对输入的句子进行词性标注,将要处理的句子中的单词按顺序存储于列表words中;
(10)对步骤(9)中words列表进行预处理;
(11)对步骤(10)获得的words列表中的单词进行词性标注,依次进行如下操作:在高频字典中查找该词对应词性,如果有,则该词词性确定;如果没有,则提取该词特征;
(12)用步骤(11)提取的单词特征预测单词词性,并保存于tokens列表中;
(13)判断步骤(9)中words列表是否处理完,如果没处理完,则循环步骤(11)至步骤(12),如果处理完,则输出tokens列表。
2.根据权利要求1所述的基于平均感知器算法的词性标注方法,其特征在于:所述步骤(3)中的对单词进行预处理是指:首先,将所有单词转换为小写;其次,将1900-2200之间的数定义为YEAR,其它数字定义为DIGITS;最后,将连续十一位数字定义为TELENUM。
3.根据权利要求1所述的基于平均感知器算法的词性标注方法,其特征在于:所述步骤(5)中的提取特征是指:单词的后三个字母,单词的首字母,单词所在句子前一个单词的词性,单词所在句子前两个单词的词性,单词本身,单词所在句子前一个单词本身,单词所在句子前一个单词的后三个字母,单词所在句子前两个单词本身,单词所在句子后一个单词本身,单词所在句子后一个单词的后三个字母,单词所在句子后两个单词本身。
4.根据权利要求1所述的基于平均感知器算法的词性标注方法,其特征在于:所述步骤(6)中更新权重是指:如果根据已有特征预测的单词词性正确,则该词对应各特征中词性对应的权重值不变,如果预测错误,则把该词对应各特征中正确词性的权重值加一,错误词性的权重值减一。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810561207.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种排版设计平台管理系统
- 下一篇:一种出现错误文本输入时的自纠正方法