[发明专利]一种基于平均感知器算法的词性标注方法在审
申请号: | 201810561207.4 | 申请日: | 2018-06-04 |
公开(公告)号: | CN109062887A | 公开(公告)日: | 2018-12-21 |
发明(设计)人: | 邵玉斌;郭海震;龙华;杜庆治 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于平均感知器算法的词性标注方法,属于自然语言处理技术领域。本发明首先针对训练集进行训练:提取训练集中单词信息,比如当前词的原形,末尾两个字母,前一个词的词性等特征,并根据语料库更新每个特征中各个词性可能的概率,最后用嵌套字典的数据结构并以字节流的方式保存在本地;其次,对句子中单词词性标注阶段:对要标注的句子进行预处理,然后获取词的特征,通过跟模型文件的比对,返回一个可能性最大的词性。本发明能够用较少的训练集达到较高的准确率,并且对设备要求也不高,训练时间也不长。 | ||
搜索关键词: | 词性 词性标注 感知器 训练集 算法 句子 标注 自然语言处理技术 预处理 嵌套 单词词性 单词信息 模型文件 数据结构 对设备 语料库 字节流 末尾 准确率 比对 字典 保存 返回 概率 更新 | ||
【主权项】:
1.一种基于平均感知器算法的词性标注方法,其特征在于:(1)从语料库中读取训练数据:从语料库中读取单词,当读取到“句号”时,代表是一个句子的结尾,将前面的若干单词组成为一句话,,将每句话存储在sentence变量中,然后将sentence加到train_data列表中作为训练集;(2)从train_data中读取一句话,其中:单词为words列表,词性为tags列表;(3)对步骤(2)获得的单词进行预处理;(4)对于步骤(3)words列表前后加上特殊字符,防止处理第一个或最后一个单词时报错;(5)对步骤(3)获得的words列表中的单词进行词性标注,依次进行如下操作:在高频字典中查找该词对应词性,如果有,则该词词性确定;如果没有,则提取该词特征;(6)用步骤(4)提取的单词特征预测单词词性,并根据预测结果更新权重;(7)判断train_data是否处理完,如果没处理完,则循环步骤(2)至步骤(6),如果处理完,则进行下一步;(8)平均权重,并将每个特征对应的各个词性及权重用嵌套字典的数据结构存储并以字节流的方式保存在本地;(9)对输入的句子进行词性标注,将要处理的句子中的单词按顺序存储于列表words中;(10)对步骤(9)中words列表进行预处理;(11)对步骤(10)获得的words列表中的单词进行词性标注,依次进行如下操作:在高频字典中查找该词对应词性,如果有,则该词词性确定;如果没有,则提取该词特征;(12)用步骤(11)提取的单词特征预测单词词性,并保存于tokens列表中;(13)判断步骤(9)中words列表是否处理完,如果没处理完,则循环步骤(11)至步骤(12),如果处理完,则输出tokens列表。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810561207.4/,转载请声明来源钻瓜专利网。
- 上一篇:一种排版设计平台管理系统
- 下一篇:一种出现错误文本输入时的自纠正方法