[发明专利]基于术语提取的跨语言信息匹配方法在审
申请号: | 201711101619.1 | 申请日: | 2017-11-10 |
公开(公告)号: | CN107908712A | 公开(公告)日: | 2018-04-13 |
发明(设计)人: | 刘刚;胡昱临;孙素艳 | 申请(专利权)人: | 哈尔滨工程大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150001 黑龙江省哈尔滨市南岗区*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供的是一种基于术语提取的跨语言信息匹配方法。利用自然语言处理技术对中文文本进行预处理,针对句子进行词性标注;采用术语的构词规则对预处理结果进行词语过滤,通过信息熵确定词语的边界;采用领域语料库中词语的IDF值来衡量术语的领域相关度,将两组词语进行加权处理,最后设定的阈值,根据术语得分情况对候选术语进行取舍;在获取的领域术语的基础上,对中英文术语进行对齐,得到术语在本领域对应的翻译。最后利用中英文术语对齐结果构建检索式,建立中文与英文之间的联系,将检索式在英文文本中进行全文检索,根据匹配结果确定最匹配的英文文本,从而达到利用领域术语对齐结果实现跨语言匹配。 | ||
搜索关键词: | 基于 术语 提取 语言 信息 匹配 方法 | ||
【主权项】:
一种基于术语提取的跨语言信息匹配方法,其特征是:步骤1:以句子为单位作为术语提取的基础,通过对文本断句、分词以及过滤停用词的过程提取数据集合;步骤2:经过中文分词之后得到待过滤的词汇集合;步骤3:加载停用词文本,从词汇集合中读入一个词汇,将词汇在停用词文本中进行查找,若找到,则过滤掉该字符,否则不过滤;步骤4:句子为单位进行分词和停用词过滤;步骤5:若word.natures是名词则保留该名词,若word.nature是形容词,则判断下一个词的词性,若下一个词是名词,则保留该名词;若word.nature是动词,则判断前后两个词,若是名词,则保留该名词;步骤6:通过步骤3‑5的方法对文本集合进行过滤,得到过滤后的文本集List,返回规则过滤后的集合List;步骤7:假设字符串s的长度L(s)>1,并且s是某个词的左右词边界,这个字符串s被作为一个完整的词语;步骤8:假如s是词语w相应的左词边界,将w写成w=sx,其中x是任意字符串;假如s是词w相应的右词边界,将w写成w=ys,其中y是任意字符串;假如s同时是词w的左右词边界,那么必然有:(1)s与w相同;(2)w=sxs这两种情况里面的一种,并且x是任意字符串;步骤9:根据基于术语规则过滤的结果,得到候选术语集合;步骤10:计算候选术语集合中词语的左右信息熵,然后根据左右信息熵计算总信息熵,相同词语的信息熵进行相加,对总信息熵进行排序,保留满足左右信息熵H(s)>IEmin的词语,其中IEmin是自定义的一个数值;步骤11:对每个词语的得分进行排序,如果词语的得分相同,则依次按照信息熵的大小和反文档频率IDF的大小对集合进行排序;步骤12:对排序后的集合,取得分大于预定阈值即Score>Scoremin的词进行保留,其中Scoremin是人工得到的数值;步骤13:对Term进行机器翻译得到术语翻译集合Term_Translate;步骤14:若术语翻译集合Term_Translate是根据字典进行的翻译,将其加入到字典翻译集合Term_entrem中,否则加入中英文对齐后的英文集合Map_Result.put;步骤15:对字典翻译集合List_EnTerm中的集合求笛卡尔积List_Descartes;步骤16:遍历笛卡尔积List_Descartes集合中的每一个集合,如果匹配,则Sum=Sum+Value;然后将这个词语插入到未登陆词相应的数据表内,查找具有最大Sum相应的存储英文序列的集合List_Max;返回英文最终结果Map_Result;步骤17:用英文搜索引擎Lucene对英文信息文本进行创建倒排索引;步骤18:根据英文搜索引擎Lucene自带排序方式对文本得分进行计算,并根据得分返回排序结果;步骤19:搜索引擎一旦接收到关键字信息便开始在资源文本中进行检索;步骤20:根据检索文本的得分情况,对检出的文本进行排序然后提交给使用者。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711101619.1/,转载请声明来源钻瓜专利网。