[发明专利]一种语义分析系统以及语义分析方法有效
申请号: | 202110956550.0 | 申请日: | 2021-08-19 |
公开(公告)号: | CN113806619B | 公开(公告)日: | 2022-09-09 |
发明(设计)人: | 杨建仁 | 申请(专利权)人: | 广州云硕科技发展有限公司 |
主分类号: | G06F16/9532 | 分类号: | G06F16/9532;G06F16/332;G06F40/289;G06F40/30 |
代理公司: | 广州专理知识产权代理事务所(普通合伙) 44493 | 代理人: | 邓易偲 |
地址: | 510000 广东省广州市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语义 分析 系统 以及 方法 | ||
本发明提供了一种语义分析系统以及语义分析方法,通过用户在客户端输入的关键字符串和将文件通过文字识别得到的字符串数据集合,利用分词算法进行切分,求得关键字符串和字符串数据集合的距离度,进而根据距离度计算选取出连接序列,通过云服务器将连接序列发送到客户端,实现对大规模纸质文件的高效率信息处理,达到对大规模纸质文件的根据主题相关度的智能推荐排序进行在客户端的显示。
技术领域
本发明属于文字识别领域,具体涉及一种语义分析系统以及语义分析方法。
背景技术
在现代的知识管理系统中,对信息的检索的需求日益增大。书本是人类管理和储存知识的重要手段,但是书本对于人类视力的时间要求和体力要求较大,不方便高效获取相关主题的信息。文字识别技术有助于利用机器智能技术将书本上的文字转化为计算机可处理的字符串信息,同时方便字符串信息的调用和存储。
对于给定相关的主题,在大量检索书本纸张中的信息方面,需要衡量纸张中的文字信息与给定主题的语义相似度,同时兼顾对相关主题的相近度的优先推荐。词向量技术的使用有助于计算文本的语义的相关程度,对文本的推荐具有极大的帮助。
利用文本识别技术结合词向量技术,可以对大规模的纸质资料进行识别处理,将多个纸质资料包含的信息与给定主题进行计算比较和排序,在客户端上进行按一定顺序的推荐和显示。
发明内容
本发明的目的在于提出一种语义分析方法及系统,以解决现有技术中所存在的一个或多个技术问题,至少提供一种有益的选择或创造条件。
本发明提供了一种语义分析系统以及语义分析方法,通过用户在客户端输入的关键字符串和将文件通过文字识别得到的字符串数据集合,利用分词算法进行切分,求得关键字符串和字符串数据集合的距离度,进而根据距离度计算选取出连接序列,通过云服务器将连接序列发送到客户端,实现对大规模纸质文件的高效率信息处理,达到对大规模纸质文件的根据主题相关度的智能推荐排序进行在客户端的显示。
为了实现上述目的,根据本公开的一方面,提供一种语义分析方法,所述方法包括以下步骤:
S100,把用户在客户端输入的字符串Token传输到云服务器;
S200,将文件通过文字识别得到的字符串数据作为集合Wordset传输到云服务器;
S300,在云服务器中,将集合Wordset通过分词算法得到集合Paraset;
S400,在云服务器中,计算字符串Token在Paraset中元素的距离度;
S500,根据距离度计算选取出连接序列Sline;
S600,云服务器将Sline发送到客户端。
进一步地,在S100中,把用户在客户端输入的字符串Token传输到云服务器的方法为:采集用户在客户端所输入的字符串记作Token,将字符串Token传输到云服务器。
进一步地,在S200中,将文件通过文字识别得到的字符串数据作为集合Wordset传输到云服务器的方法为:将印有文字的纸张作为文件,将多个文件分别通过文字识别技术识别得到的多个字符串数据作为集合Wordset,将集合Wordset传输到云服务器,在云服务器的数据库中进行储存。
进一步地,在S300中,在云服务器中,将集合Wordset通过分词算法得到集合Paraset的方法为:在云服务器的数据库中获取集合Wordset,将集合Wordset中的每一个字符串数据分别通过分词算法转化为字符串数组,将由集合Wordset中各个字符串数据通过分词得到的多个字符串数组作为集合Paraset。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州云硕科技发展有限公司,未经广州云硕科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110956550.0/2.html,转载请声明来源钻瓜专利网。