[发明专利]西里尔蒙古文和传统蒙古文双文种知识图谱构建方法有效
申请号: | 201811178790.7 | 申请日: | 2018-10-10 |
公开(公告)号: | CN109271529B | 公开(公告)日: | 2020-09-01 |
发明(设计)人: | 苏向东;飞龙;高光来;刘娜;闫蓉 | 申请(专利权)人: | 内蒙古大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06F40/295 |
代理公司: | 西安知诚思迈知识产权代理事务所(普通合伙) 61237 | 代理人: | 闵媛媛 |
地址: | 010021 内蒙古自治区呼*** | 国省代码: | 内蒙古;15 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 西里 蒙古文 传统 双文种 知识 图谱 构建 方法 | ||
本发明公开了一种西里尔蒙古文和传统蒙古文双文种知识图谱构建方法,具体为:将开源知识图谱和蒙古文网页资源进行抓取和预处理;将预处理后的西里尔蒙古文文本转传统蒙古文文本;建立传统蒙古文知识图谱数据模式;传统蒙古文命名实体识别和消解;传统蒙古文事实抽取;传统蒙古文知识图谱集成;建立西里尔蒙古文和传统蒙古文双文种知识图谱。获得西里尔蒙古文和传统蒙古文双文种知识图谱,解决了现有技术中尚无公开的、具备一定规模且满足应用需求的蒙古文知识图谱,制约蒙古文智能信息处理相关研究和应用发展的问题。
技术领域
本发明属于少数民族语言处理技术领域,涉及一种西里尔蒙古文和传统蒙古文双文种知识图谱构建方法,主要应用于语义分析、智能问答、知识推理、分析决策等领域。
背景技术
知识图谱(Knowledge Graph)描述客观世界中的概念、实体、事件以及相互关系,将互联网信息以更加接近人类认知的形式展现出来,实现了海量信息的高效组织和管理,为信息深层加工和利用奠定了基础。知识图谱作为信息化时代下自然语言处理和人工智能发展的驱动力之一,在语义分析、智能问答、知识推理、分析决策等领域受到广泛应用。鉴于知识图谱在智能知识服务中的巨大应用价值,企业和科研人员对其进行了大量和深入的研究,构建了多种语言的知识图谱,如DBpedia,Freebase,YAGO,Zhishi.me,XLORE,KnowItAll,TextRunner等。这些知识图谱与大数据处理、深度学习以及自然语言处理技术相互融合,成为互联网时代智能信息处理的重要基础。
智能搜索引擎,主要通过自然语言处理和知识图谱等人工智能技术,来实现人工智能在搜索引擎产品的落地。它更注重与其他科学相融合、个性化搜索、智能化比较高。换句话说,它是非常智能、需要理解用户需求、以用户为中心的搜索技术。以往在搜索引擎上搜索信息,用户往往面临不少痛点:表达的搜索需求和搜索结果往往难以匹配,经常有“搜”非所问的情况;此外,搜索结果中地址,解答等内容编排无序,显示杂乱。而运用了知识图谱的智能搜索引擎,则可以返回更加精准的结果。就知识图谱而言,研究语义分析方面至关重要,知识库的构建和知识搜索都需要语义分析。未来的搜索引擎,会以用户为核心,越来越智能化。
蒙古文是一种跨多国和多地区的语言,在世界上具有广泛影响力,使用者主要为蒙古族,分布在中国、蒙古国、俄罗斯以及中亚的一些国家,人数达到1000多万,中国和蒙古国使用的蒙古语言文字是“语同文不同”,即语言相同,文字不同,在中国使用的蒙古文被称为“传统蒙古文”,在蒙古文使用的蒙古文称为“西里尔蒙古文”。互联网上有海量的西里尔蒙古文和传统蒙古文的文本和多媒体数据,这些数据每天不断增加,蒙古族用户依赖于蒙古文搜索引擎、推荐系统、问答系统等智能知识系统获取所需信息和服务,为采用知识图谱技术改进和优化相关蒙古文智能服务系统提出了需求。
目前,蒙古文知识图谱的研究处于起步阶段,尚无公开的、具备一定规模且满足应用需求的蒙古文知识图谱,一定程度上制约了蒙古文智能信息处理相关研究和应用的发展。蒙古文知识图谱研究缓慢的原因主要有三点:首先,蒙古文信息化起步较晚,各类软件和系统对蒙古文的支持不够完善;其次,蒙古文构词方式特殊导致其词汇数量巨大且兼类词多,其句法结构与英文、汉文有显著区别,词法和句法的分析处理难度大;第三,互联网上没有完善的蒙古文百科知识网站,仅维基百科包含少量的蒙古文词条,结构化的蒙古文数据资源相对稀缺,增加了蒙古文知识图谱构建的难度。
构建蒙古文知识图谱主要存在以下挑战:
(1)西里尔蒙古文和传统蒙古文。蒙古文存在着“语同文不同”的现象,在中国使用的蒙古文称为“传统蒙古文”,在蒙古使用的蒙古文称为“西里尔蒙古文”。西里尔蒙古文是从传统蒙古文演变而成的,词法和句法基本相似,区别主要体现在字母表构成、单词中字母大小写、文字书写方向、以及口语转写书面语这四方面。由于西里尔蒙古文和传统蒙古文两者存在差异,抽取不同文种文本中的知识应根据文种采取不同的方法,这增加了知识图谱构建的难度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于内蒙古大学,未经内蒙古大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811178790.7/2.html,转载请声明来源钻瓜专利网。