[发明专利]一种自然语言处理的算法有效
申请号: | 201911222374.7 | 申请日: | 2019-12-03 |
公开(公告)号: | CN111177370B | 公开(公告)日: | 2023-08-11 |
发明(设计)人: | 孙践知;蔡添;刘瑞军;王向上 | 申请(专利权)人: | 北京工商大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 北京中盛智产知识产权代理事务所(普通合伙) 16196 | 代理人: | 季茂源 |
地址: | 100048*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自然语言 处理 算法 | ||
本发明公开了一种自然语言处理的算法,包括以下步骤:S1:获取需要处理的自然语言文本;S2:将自然语言文本中的字符串转化为词向量;S3:根据待处理中自然语言文本的词向量,可以查找出数据库中具有相同词向量的训练文本;S4:对每一个词向量,计算其属于数据库中具有相同词向量的训练文本的哪一类,对每一类训练文本,计算其类的质心,并进行收敛;S5:从最接近类别中获得该词向量所代表的含义,直到将待处理的自然语言文本中所有词向量的含义表示出来。本发明通过对每个词向量进行聚类分析,从而确定每个词向量中的类别以及词向量所代表的含义,可以精准的分析出待测自然语言文本所表达的内容,从而降低计算误差,提高语言表达的准确率。
技术领域
本发明涉及信息处理技术领域,特别涉及一种自然语言处理的算法。
背景技术
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学,如何将自然语言有效的与计算机系统结合起来,是目前智能发展的热点话题,目前的自然语言处理在对词句的理解上容易出现偏差,无法准确理解自然语言中的含义,导致输出的结论出现很大的错误。
发明内容
本发明要解决的技术问题是克服现有技术的缺陷,提供一种自然语言处理的算法,解决目前自然语言处理过程中无法准确理解自然语言中的含义,导致无法正确输出表达文本中的内容的问题。
为了解决上述技术问题,本发明提供了如下的技术方案:
本发明一种自然语言处理的算法,包括以下步骤:
S1:获取需要处理的自然语言文本;
S2:将自然语言文本中的字符串转化为词向量;
S3:根据待处理中自然语言文本的词向量,可以查找出数据库中具有相同词向量的训练文本;
S4:对每一个词向量,计算其属于数据库中具有相同词向量的训练文本的哪一类,对每一类训练文本,计算其类的质心,并进行收敛;
S5:从最接近类别中获得该词向量所代表的含义,并重复S1-S4步骤,直到将待处理的自然语言文本中所有词向量的含义表示出来。
作为本发明的一种优选技术方案,所述步骤S4中计算其属于数据库中具有相同词向量的训练文本的哪一类的计算公式为
对于每一类训练文本,计算该类的质心的计算公式为
其中,m为训练文本类别的个数,x(i)表示词向量,j表示训练文本的类别,μj表示该类的质心;c(i)代表词向量x(i)与m个类中距离最近的那个类。
作为本发明的一种优选技术方案,所述步骤S4中,收敛采用误差和的方式进行收敛,其误差和的计算公式为
其中,J(c,μ)表示误差和,x(i)表示词向量,μc(i)表示词向量x(i)距离最近的那个类的质心。
作为本发明的一种优选技术方案,所述步骤S4中,从每次朝一个变量μc(i)的方向找到最优解,也就是求偏导数,令误差和等于0,可得x(i)所在簇的元素中的个数。
作为本发明的一种优选技术方案,所述步骤S3中,具有相同词向量的训练文本的类别不少于2种。
与现有技术相比,本发明的有益效果如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工商大学,未经北京工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911222374.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种PDF文件去重存储方法及系统
- 下一篇:一种数据处理方法及相关设备