[发明专利]一种基于神经网络和模糊推理的中文分词方法、系统及介质有效
申请号: | 201910930568.6 | 申请日: | 2019-09-29 |
公开(公告)号: | CN110705289B | 公开(公告)日: | 2023-03-28 |
发明(设计)人: | 邱东;闫睿腾 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06N3/084;G06N5/048 |
代理公司: | 重庆市恒信知识产权代理有限公司 50102 | 代理人: | 刘小红;陈栋梁 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 神经网络 模糊 推理 中文 分词 方法 系统 介质 | ||
1.一种基于神经网络和模糊推理的中文分词方法,用于计算机自然语言处理,其特征在于,包括以下步骤:
101、计算机对语料库进行包括划分训练数据集、验证数据集、整理语料库格式、读取测试数据集、验证数据集在内的预处理操作;
102、计算机读取语料库中的训练集和测试集,并训练文本语料库icwb2-data得到中文词向量,将训练集和验证集中所有的中文词都转换为词向量;
103、计算机建立BP反向传播神经网络学习模型,将步骤102训练之后得到的学习结果对未分词的语句进行初步分词预测,得到模糊词组;
104、计算机将预测产生的模糊词组,使用《知网HowNet》得到模糊词之间的关系;
105、计算机基于模糊词关系表示,采用模糊推理计算是否需要分词;
106、通过建立BP-模糊推理-交叉验证模型,计算机对输入的语句进行分词预测;
所述步骤105基于模糊词关系表示,建立BP-模糊推理-交叉验证模型,采用模糊推理计算是否需要分词,具体步骤如下:
1)定义:
初始化r=0;
r1r2分别表示模糊词和确定词,初始化为r1=0,r2=0;
vagword表示每个模糊词与分词方案之间的隶属度关系,初始化为vagword=0;每个确定词权重suramount表示确定单词数的单词数;
每个分词方案权重vagamount是分割方案中模糊词的总数;
1)r1:
遍历分割方案中的每个模糊词,并研究模糊词与分割方案中每个确定词的关系,通过《知网HowNet》得到两个相关词的相关性R,改变模糊词的隶属度;
vagword=vagword+surword*R
r1=r1+vagword*surword
2)r2
遍历分割方案中的每个模糊词,得到模糊场的相关度,改变模糊词的隶属度;
vagword=2*vagword*R
r2=r2+vagword*vagword
3)r
If neither r1 nor r2 is 0,
If r1=0,r=r2
If r2=0,r=r1
如果隶属度关系大于神经网络的输出值,不进行分割;
如果隶属度关系小于神经网络的输出值,则进行分割。
2.根据权利要求1所述的一种基于神经网络和模糊推理的中文分词方法,其特征在于,所述步骤101对语料库进行预处理操作,主要操作如下:
1)将icwb2-data语料库中,pku_training.txt作为训练集,pku_test.txt作为验证集;
2)整理训练集、验证集的数据格式,设置标签0即不需要分词,1即需要分词,即逢1进行分词,由0和最近的1所代表的字组合成一个词语按照字为单位,如果需要分割,则设置为1,不需要分割,设置为0;
3)将训练集以及验证集的数据,按照2)的数据格式,计算机读取到内存中。
3.根据权利要求2所述的一种基于神经网络和模糊推理的中文分词方法,其特征在于,所述步骤102读取语料库中的训练集和测试集,并训练语料库得到中文词向量,具体包括:
对icwb2-data语料库训练集以及测试集所有语料进行读取,并训练词向量,具体操作如下:
1)使用gensim工具包的word2vec,训练步骤2中读取到的中词组,得到中文词向量库;
2)将训练集、验证集转换为中文词向量组成的矩阵,每一列代表一个中文词向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910930568.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于大数据的舆情分析系统
- 下一篇:一种网页分类方法及装置