[发明专利]一种自然语言处理的算法有效

申请号：	201911222374.7	申请日：	2019-12-03
公开（公告）号：	CN111177370B	公开（公告）日：	2023-08-11
发明（设计）人：	孙践知;蔡添;刘瑞军;王向上	申请（专利权）人：	北京工商大学
主分类号：	G06F16/35	分类号：	G06F16/35
代理公司：	北京中盛智产知识产权代理事务所(普通合伙) 16196	代理人：	季茂源
地址：	100048***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种自然语言处理算法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种自然语言处理的算法，包括以下步骤：S1：获取需要处理的自然语言文本；S2：将自然语言文本中的字符串转化为词向量；S3：根据待处理中自然语言文本的词向量，可以查找出数据库中具有相同词向量的训练文本；S4：对每一个词向量，计算其属于数据库中具有相同词向量的训练文本的哪一类，对每一类训练文本，计算其类的质心，并进行收敛；S5：从最接近类别中获得该词向量所代表的含义，直到将待处理的自然语言文本中所有词向量的含义表示出来。本发明通过对每个词向量进行聚类分析，从而确定每个词向量中的类别以及词向量所代表的含义，可以精准的分析出待测自然语言文本所表达的内容，从而降低计算误差，提高语言表达的准确率。

技术领域

本发明涉及信息处理技术领域，特别涉及一种自然语言处理的算法。

背景技术

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学，如何将自然语言有效的与计算机系统结合起来，是目前智能发展的热点话题，目前的自然语言处理在对词句的理解上容易出现偏差，无法准确理解自然语言中的含义，导致输出的结论出现很大的错误。

发明内容

本发明要解决的技术问题是克服现有技术的缺陷，提供一种自然语言处理的算法，解决目前自然语言处理过程中无法准确理解自然语言中的含义，导致无法正确输出表达文本中的内容的问题。

为了解决上述技术问题，本发明提供了如下的技术方案：

本发明一种自然语言处理的算法，包括以下步骤：

S1：获取需要处理的自然语言文本；

S2：将自然语言文本中的字符串转化为词向量；

S3：根据待处理中自然语言文本的词向量，可以查找出数据库中具有相同词向量的训练文本；

S4：对每一个词向量，计算其属于数据库中具有相同词向量的训练文本的哪一类，对每一类训练文本，计算其类的质心，并进行收敛；

S5：从最接近类别中获得该词向量所代表的含义，并重复S1-S4步骤，直到将待处理的自然语言文本中所有词向量的含义表示出来。

作为本发明的一种优选技术方案，所述步骤S4中计算其属于数据库中具有相同词向量的训练文本的哪一类的计算公式为

对于每一类训练文本，计算该类的质心的计算公式为

其中，m为训练文本类别的个数，x⁽ⁱ⁾表示词向量，j表示训练文本的类别，μ_j表示该类的质心；c⁽ⁱ⁾代表词向量x⁽ⁱ⁾与m个类中距离最近的那个类。