[发明专利]一种用于小数据集的语义分析方法和系统在审

申请号：	201910549943.2	申请日：	2019-06-24
公开（公告）号：	CN110399385A	公开（公告）日：	2019-11-01
发明（设计）人：	吴少华;李志杰;黄志炜	申请（专利权）人：	厦门市美亚柏科信息股份有限公司
主分类号：	G06F16/242	分类号：	G06F16/242;G06F16/332;G06F17/27
代理公司：	厦门福贝知识产权代理事务所(普通合伙) 35235	代理人：	郝学江
地址：	361000 福建省厦门市***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明给出了一种用于小数据集的语义分析方法和系统，包括获取待匹配的文本；基于预先建立的分词词典库，对文本进行字符串分割，确定至少一个关键词；基于预先建立的索引库，将关键词与索引库中的词频表逐一检索比对，获取包含关键词或与关键词互为同义词的词频表对应的所有词条，生成初步匹配结果；利用余弦相似度算法进行文本相似度的二次校验，计算文本与初步匹配结果的相似度，获取相似度大于相似度阈值的最终匹配结果。利用关键词约束和相似度二次校验对语义分析进行辅助优化，提高了匹配的准确率。
搜索关键词：	相似度匹配结果语义分析词频预先建立文本校验索引库小数据匹配同义词文本相似度余弦相似度字符串分割检索比对词典库词条准确率分词算法优化
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种用于小数据集的语义分析方法，其特征在于，包括以下步骤：S1：获取待匹配的文本；S2：基于预先建立的分词词典库，对所述文本进行字符串分割，确定至少一个关键词；S3：基于预先建立的索引库，将所述关键词与所述索引库中的词频表逐一检索比对，获取包含所述关键词或与所述关键词互为同义词的词频表对应的所有词条，生成初步匹配结果；S4：利用余弦相似度算法进行文本相似度的二次校验，计算所述文本与所述初步匹配结果的相似度，获取相似度大于相似度阈值的最终匹配结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于厦门市美亚柏科信息股份有限公司，未经厦门市美亚柏科信息股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910549943.2/，转载请声明来源钻瓜专利网。

上一篇：UDF适配方法、数据处理方法、设备及存储介质
下一篇：一种基于Presto的SQL UPDATE方法及控制系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种用于小数据集的语义分析方法和系统在审

专利文献下载