[发明专利]一种语义分析系统以及语义分析方法有效
申请号: | 202110956550.0 | 申请日: | 2021-08-19 |
公开(公告)号: | CN113806619B | 公开(公告)日: | 2022-09-09 |
发明(设计)人: | 杨建仁 | 申请(专利权)人: | 广州云硕科技发展有限公司 |
主分类号: | G06F16/9532 | 分类号: | G06F16/9532;G06F16/332;G06F40/289;G06F40/30 |
代理公司: | 广州专理知识产权代理事务所(普通合伙) 44493 | 代理人: | 邓易偲 |
地址: | 510000 广东省广州市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语义 分析 系统 以及 方法 | ||
1.一种语义分析方法,其特征在于,所述方法包括以下步骤:
S100,把用户在客户端输入的字符串Token传输到云服务器;
S200,将文件通过文字识别得到的字符串数据作为集合Wordset传输到云服务器;
S300,在云服务器中,将集合Wordset通过分词算法得到集合Paraset;
S400,在云服务器中,计算字符串Token在Paraset中元素的距离度;
S500,根据距离度计算选取出连接序列Sline;
S600,云服务器将Sline发送到客户端;
其中,在S100中,把用户在客户端输入的字符串Token传输到云服务器的方法为:采集用户在客户端所输入的字符串记作Token,将字符串Token传输到云服务器;
在S300中,在云服务器中,将集合Wordset通过分词算法得到集合Paraset的方法为:在云服务器的数据库中获取集合Wordset,将集合Wordset中的每一个字符串数据分别通过分词算法转化为字符串数组,将由集合Wordset中各个字符串数据通过分词得到的多个字符串数组作为集合Paraset;
在S400中,在云服务器中,计算字符串Token在Paraset中元素的距离度的方法为:计算字符串Token在Paraset中各元素的多个连接序列的具体方法为,记集合Paraset各元素的数量为n,变量i为集合Paraset中元素的序号,i∈[1,n],字符串数组Paraset(i)表示集合Paraset中序号为i的元素,记变量j表示字符串数组Paraset(i)中字符串的序号,m为字符串数组Paraset(i)中包含的字符串的数量,word(i,j)表示集合Paraset中序号为i的元素Paraset(i)中的序号为j的字符串,记函数Vec()为通过词向量方法将输入的字符串进行向量化得到词向量的函数,通过函数Vec()所得的词向量的维度均相同,记通过函数Vec()所得的词向量的维度为k,变量t表示通过函数Vec()所得的词向量的第t维的序号,t∈[1,k],则Vec(Token)表示通过词向量方法将Token进行向量化得到的词向量,记vt即表示Vec(Token),Vec(word(i,j))表示通过词向量方法将word(i,j)进行向量化得到的词向量,记vw即表示Vec(word(i,j)),vt[t]表示Vec(Token)的第t维数值,vw[t]表示Vec(word(i,j))的第t维数值,记词向量Vec(Token)与Vec(word(i,j))之间的距离度为d(i,j),计算词向量Vec(Token)与Vec(word(i,j))之间的距离度d(i,j)的公式为:
则记函数D()为输入两个向量计算两个向量之间的距离度的函数,词向量Vec(Token)与Vec(word(i,j))之间的距离度为d(i,j),通过函数D()表示为:
d(i,j)=D(Vec(Token),Vec(word(i,j))),
或者d(i,j)=D(vt,vw),
或者D(vt,vw)=D(Vec(Token),Vec(word(i,j)));
在S500中,根据距离度计算选取出连接序列Sline的方法为:计算Vec(Token)分别与集合Paraset中序号为i的元素Paraset(i)中的各个字符串通过函数Vec()进行向量化得到的各个词向量的距离记作整体距离度Dis(vt, Paraset(i)),整体距离度函数Dis()表示计算一个词向量与集合Paraset中序号为i的元素Paraset(i)中的各个字符串通过函数Vec()进行向量化得到的各个词向量的整体距离度,Dis(vt, Paraset(i)) 整体距离度的计算公式为:
进而根据Dis(vt, Paraset(i))的公式分别计算vt 与Paraset中各个元素之间的整体距离度,将vt 与Paraset中各个元素之间的整体距离度作为集合Diset,根据集合Diset中各元素的数值大小按从小到大的顺序对各元素在Paraset中的序号进行排序得到连接序列Sline。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州云硕科技发展有限公司,未经广州云硕科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110956550.0/1.html,转载请声明来源钻瓜专利网。