[发明专利]一种柬埔寨语组织机构名识别方法在审
申请号: | 201611157511.X | 申请日: | 2016-12-15 |
公开(公告)号: | CN106776560A | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 严馨;王若兰;余正涛;郭剑毅 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 柬埔寨 组织机构 识别 方法 | ||
技术领域
本发明涉及一种柬埔寨语组织机构名识别方法,特别是一种基于Tri-training算法的柬埔寨语组织机构名识别方法,属于自然语言处理技术领域。
背景技术
柬埔寨语又称高棉语,属南亚语系孟高棉语族高棉语支语言,是柬埔寨现今的官方语言。由于我国与柬埔寨国家在各个领域之间的交流日趋频繁,而目前,有关柬语文本的词法分析工作比较匮乏,因此进行柬埔寨语的命名实体识别研究对柬埔寨的政治经济分析、舆情把握等具有非常重要的意义。针对柬语的词法分析工作,特别是柬语的命名实体识别更是需要投入大量精力进行研究。命名实体识别是信息处理中最为基础的关键技术之一,其中,组织机构名识别是命名实体识别研究的重点,也是难点。组织机构名是泛指机关、团体等实体的名称。虽然组织机构名没有人名、地名那样明确的特点和固定的用词,但也有一定的组成特点。完整的组织机构名通常由一个或一个以上的机构名前部词加上一个机构名后缀词(如大学、协会等)组成。因此本发明只讨论柬埔寨语组织机构名识别问题。
发明内容
本发明要解决的技术问题是提供一种柬埔寨语组织机构名识别方法,用于解决柬埔寨语组织机构名的识别、提高柬埔寨语组织机构名识别的准确率等问题。
本发明的技术方案是:一种柬埔寨语组织机构名识别方法,具体步骤如下:
Step1、首先对抽取的柬埔寨语篇章进行切分,切分后的句子进行分词和词性标注,通过人工校对,然后标注柬埔寨语命名实体,得到相当规模的柬埔寨语组织机构名语料;
Step2、通过标注的语料提取命名实体指示词,构建指示词库,构建特征模板,通过改进的Tri-training算法学习得到组织机构名识别模型;
Step3、对选取的测试语料通过组织机构名识别模型进行训练得到组织机构名的标注结果。
所述步骤Step1中组织机构名标注语料获取的具体步骤如下:
Step1.1、首先利用爬虫程序,从柬埔寨新闻网上爬取出网页信息;
Step1.2、把爬取出的网页信息,经过过滤处理,构建出柬埔寨语篇章语料库;
Step1.3、通过柬埔寨语的句子结束符等将篇章切分为句子,形成柬埔寨语句子级语料库,并把柬埔寨语句子级语料库的语料存放到数据库中;
Step1.4、从数据库中取出柬埔寨语句子级的语料,通过柬埔寨语分词和词性标注系统进行分词和词性标注,并进行人工校对,得到含有正确结果的柬埔寨语词性标注分词库,并把柬埔寨语词性标注分词库的词语存放到数据库中;
Step1.5、根据柬埔寨语命名实体特点和标注规则,从数据库中取出柬埔寨语词性标注分词库的语料,通过人工标注柬埔寨语命名实体,得到含有正确标注结果的柬埔寨语命名实体语料库,并把柬埔寨语命名实体标注语料库的结果存放在数据库中。
所述步骤Step2组织机构名识别模型构建的具体步骤:
Step2.1、从存放柬埔寨语命名实体标注语料库的数据库中取出已标注好的柬埔寨语命名实体的语料;
Step2.2、对Step2.1中的语料提取命名实体指示词,构建命名实体指示词库,其中提取的命名实体包括人名、地名和组织机构名;
Step2.3、通过组织机构名的词和词性特种构建基本特征模板,基本特征模板描述了当前词及其上下文中若干个词的词性;
Step2.4、通过Step2.3构建的基本特征模板进行特征组合构建复合特征模板,复合特征能够利用远距离的依存关系和丰富的上下文信息;
Step2.5、柬埔寨语组织机构名具有非常复杂的构成特点,这些复杂的特点为柬埔寨语组织机构名识别提供非常丰富的外部信息,因此基于这个特点,结合Step2.2构建的命名实体指示词库,构建实体特征模板;
Step2.6、根据分类器的特点,选取条件随机场、支持向量机和最大熵模型三个不同的分类器作为Tri-training算法中的三个基分类器;
Step2.7、通过三个基分类器和Step2.3、Step2.4、Step2.5构建的特征模板,利用已标注语料和未标注语料通过改进的Tri-training算法学习得到组织机构名识别模型。
所述步骤Step1.2的具体步骤为:
Step1.2.1、对爬取的网页信息进行有效的过滤,去除无效网页;
Step1.2.2、对得到的有效网页进行去重、去噪音的预处理操作。
所述步骤Step2.7的具体步骤为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611157511.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:文本语义相似度计算的方法及装置
- 下一篇:车联网系统新闻正文提取方法