[发明专利]基于术语提取的跨语言信息匹配方法在审

专利信息
申请号: 201711101619.1 申请日: 2017-11-10
公开(公告)号: CN107908712A 公开(公告)日: 2018-04-13
发明(设计)人: 刘刚;胡昱临;孙素艳 申请(专利权)人: 哈尔滨工程大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 150001 黑龙江省哈尔滨市南岗区*** 国省代码: 黑龙江;23
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提供的是一种基于术语提取的跨语言信息匹配方法。利用自然语言处理技术对中文文本进行预处理,针对句子进行词性标注;采用术语的构词规则对预处理结果进行词语过滤,通过信息熵确定词语的边界;采用领域语料库中词语的IDF值来衡量术语的领域相关度,将两组词语进行加权处理,最后设定的阈值,根据术语得分情况对候选术语进行取舍;在获取的领域术语的基础上,对中英文术语进行对齐,得到术语在本领域对应的翻译。最后利用中英文术语对齐结果构建检索式,建立中文与英文之间的联系,将检索式在英文文本中进行全文检索,根据匹配结果确定最匹配的英文文本,从而达到利用领域术语对齐结果实现跨语言匹配。
搜索关键词: 基于 术语 提取 语言 信息 匹配 方法
【主权项】:
一种基于术语提取的跨语言信息匹配方法,其特征是:步骤1:以句子为单位作为术语提取的基础,通过对文本断句、分词以及过滤停用词的过程提取数据集合;步骤2:经过中文分词之后得到待过滤的词汇集合;步骤3:加载停用词文本,从词汇集合中读入一个词汇,将词汇在停用词文本中进行查找,若找到,则过滤掉该字符,否则不过滤;步骤4:句子为单位进行分词和停用词过滤;步骤5:若word.natures是名词则保留该名词,若word.nature是形容词,则判断下一个词的词性,若下一个词是名词,则保留该名词;若word.nature是动词,则判断前后两个词,若是名词,则保留该名词;步骤6:通过步骤3‑5的方法对文本集合进行过滤,得到过滤后的文本集List,返回规则过滤后的集合List;步骤7:假设字符串s的长度L(s)>1,并且s是某个词的左右词边界,这个字符串s被作为一个完整的词语;步骤8:假如s是词语w相应的左词边界,将w写成w=sx,其中x是任意字符串;假如s是词w相应的右词边界,将w写成w=ys,其中y是任意字符串;假如s同时是词w的左右词边界,那么必然有:(1)s与w相同;(2)w=sxs这两种情况里面的一种,并且x是任意字符串;步骤9:根据基于术语规则过滤的结果,得到候选术语集合;步骤10:计算候选术语集合中词语的左右信息熵,然后根据左右信息熵计算总信息熵,相同词语的信息熵进行相加,对总信息熵进行排序,保留满足左右信息熵H(s)>IEmin的词语,其中IEmin是自定义的一个数值;步骤11:对每个词语的得分进行排序,如果词语的得分相同,则依次按照信息熵的大小和反文档频率IDF的大小对集合进行排序;步骤12:对排序后的集合,取得分大于预定阈值即Score>Scoremin的词进行保留,其中Scoremin是人工得到的数值;步骤13:对Term进行机器翻译得到术语翻译集合Term_Translate;步骤14:若术语翻译集合Term_Translate是根据字典进行的翻译,将其加入到字典翻译集合Term_entrem中,否则加入中英文对齐后的英文集合Map_Result.put;步骤15:对字典翻译集合List_EnTerm中的集合求笛卡尔积List_Descartes;步骤16:遍历笛卡尔积List_Descartes集合中的每一个集合,如果匹配,则Sum=Sum+Value;然后将这个词语插入到未登陆词相应的数据表内,查找具有最大Sum相应的存储英文序列的集合List_Max;返回英文最终结果Map_Result;步骤17:用英文搜索引擎Lucene对英文信息文本进行创建倒排索引;步骤18:根据英文搜索引擎Lucene自带排序方式对文本得分进行计算,并根据得分返回排序结果;步骤19:搜索引擎一旦接收到关键字信息便开始在资源文本中进行检索;步骤20:根据检索文本的得分情况,对检出的文本进行排序然后提交给使用者。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201711101619.1/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top