[发明专利]一种知识驱动的英汉单词语义相似度自动检测方法在审

申请号：	201910438159.4	申请日：	2019-05-24
公开（公告）号：	CN110263331A	公开（公告）日：	2019-09-20
发明（设计）人：	王铁鑫;曹静雯;李文心	申请（专利权）人：	南京航空航天大学
主分类号：	G06F17/27	分类号：	G06F17/27;G06F16/35
代理公司：	南京苏高专利商标事务所(普通合伙) 32204	代理人：	柏尚春
地址：	210007 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	词语单词语义语义词典知识驱动自动检测分类树相似度自然语言建立数据库可视化应用二次加工人工参与人工分析输出接口数据关系语义关系准确定义插件数据库分析量化
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种知识驱动的英汉单词语义相似度自动检测方法，其特征在于，包括如下步骤：

步骤1、基于Eclipse的MongoDB JDBC驱动，在本地MongoDB中建立数据库并建立collection，将HowNet数据库中的语义词典和义原分类树二次加工导入到MongoDB中；

步骤2、人工分析MongoDB中的数据即语义词典和义原分类树中的词之间的关系，对分析出来的数据关系进行加工处理，实现关系值的量化计算；

步骤3、基于Eclipse的WindowBuilder插件为工具提供可视化应用界面，提供输入和输出接口。

2.根据权利要求1所述的英汉单词语义相似度自动检测方法，其特征在于，所述步骤2具体包括如下内容：

步骤2.1、根据词语在语义词典中的定义，分析HowNet的最基本文件的存储集合semanticdictionary；

步骤2.2、对MongoDB中存储的atomtree集合进行分析；

步骤2.3、进行数据处理。

3.根据权利要求2所述的英汉单词语义相似度自动检测方法，其特征在于，所述步骤2.1中，词语在语义词典中的定义包括以下三种情况：

如果两个词语的定义完全一样，则是同义词；

如果两个词语的定义是部分相同的或者存在包含关系，则存在相似性；

如果两个词语的定义毫无相同，则没有关系。

4.根据权利要求2所述的知识驱动的计算英汉单词语义相似度的方法，其特征在于，所述步骤2.3中，定义两个词语Word₁、Word₂；所述Word₁含有m个义项：def₁,def₂,……，def_m，构成集合DEF₁；所述Word₂含有n个义项：def₁,def₂,……，def_n，构成集合DEF₂；每个DEF集合中的重复def只算作一个，每个def由不定数的义原atom_i’组成一个集合；

步骤2.3.1、将Word₁的DEF₁集合和Word₂的DEF₂集合进行比较，计算出相同的def占DEF集合的势的比率；

步骤2.3.2、去除两个DEF集合中的相同的def，将DEF₁中剩下的每一条def分别与DEF₂剩下的每一条def进行比较，在任意对def集合中，首先比较主属性即第一个atom是否相同，如果相同，给定主属性的相似度为1，否则为0；

步骤2.3.3、针对每对def集合中去除第一个atom后剩下的atom，计算相同的atom的占比和其余的atom之间的相似度，将主属性的相似度、相同atom的占比和其余atom之间的相似度加权计算得到每对def集合的相似度；

步骤2.3.4、对于不同的部分给相应的权重，使得结果在0～1的范围内。

5.根据权利要求1所述的英汉单词语义相似度自动检测方法，其特征在于，所述步骤3中工具包括precount包和connect包。

6.根据权利要求5所述的英汉单词语义相似度自动检测方法，其特征在于：所述precount包包括Treecount类和TreeHigh类。

7.根据权利要求5所述的英汉单词语义相似度自动检测方法，其特征在于：所述connect包包括ConnectMongoDB类、GetDocument_HowNet接口、GetDocument_Atom接口、SimAtom_Eng_Chi类、SimWord类和Tool类。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京航空航天大学，未经南京航空航天大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910438159.4/1.html，转载请声明来源钻瓜专利网。

上一篇：问题语句的改写方法、装置、设备和存储介质
下一篇：一种基于神经网络的自然语言关系抽取方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种知识驱动的英汉单词语义相似度自动检测方法在审

专利文献下载