[发明专利]一种基于统计机器学习方法的分词字典数据采集方法在审
申请号: | 201610329755.5 | 申请日: | 2016-05-18 |
公开(公告)号: | CN106055560A | 公开(公告)日: | 2016-10-26 |
发明(设计)人: | 姬江涛;闵新力;薛君志;马伟华;秦玉林;张小坤;张国军;施俊士;张余;程洁羚;周江;张达宁 | 申请(专利权)人: | 上海申腾信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海三方专利事务所 31127 | 代理人: | 吴玮;单大义 |
地址: | 200040 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及数据处理基础领域,具体来说是一种基于统计机器学习方法的分词字典数据采集方法,利用机器学习的方法,采用分类思想获取领域概念,把领域概念获取问题看成是一个二值分类问题,进行概念的获取及处理,从而对采集信息或数据进行加工,建立信息数据库和索引数据库,形成用户想要的数据内容,对用户提出的各种检索做出响应,为提供用户所需的信息或相关指针,从而提高了信息检索的准确率和准确率。 | ||
搜索关键词: | 一种 基于 统计 机器 学习方法 分词 字典 数据 采集 方法 | ||
【主权项】:
一种基于统计机器学习方法的分词字典数据采集方法,其特征在于方法具体如下:a.概念的自动获取:利用机器学习的方法,采用分类思想获取领域概念,把领域概念获取问题看成是一个二值分类问题,处理流程包括三个步骤:(1).预处理:预处理输入的是训练文本,输出是带标记的候选领域概念集;(2).训练:输入是带标记的候选领域概念集,输出是一个训练好的预测模型,在获得候选概念集后,需要将这些候选概念表示成计算机可以识别的格式,以便训练分类模型,首先,选用频度特征、词特征、邻居词特征这三类特征,为每一个候选领域概念构造一个带有类别标记的特征向量,由此得到一组训练数据样本,然而这样的样本向量空间维数非常高,给计算带来巨大压力,可针对邻居词特征的特点,筛选出最有代表意义的邻居词特征,降低特征向量的维数,其次,需要计算不同特征的权重,从而能够更加准确地描述特征项在领域概念中的重要性以及不同特征项对分类所起的不同作用;在文本分类中,有单边统计量特征选择方法和双边统计量特征选择方法两种方法,最后,运用分类算法从标注的训练数据中,学习一个推广性能最好的分类模型;(3).分类:利用训练好的分类预测模型预测新文本中的候选领域概念,得到真实的专业术语;b.概念关系获取:领域概念关系获取问题可转换成一个多类分类问题,要求一个多类分类器能够正确区分同义关系、上下位关系、整体-部分关系三类词对,多类分类问题的求解是将其分解成一系列两类分类问题的组合来求解,具体处理流程包括三个步骤:(1).预处理:利用前文方法中获得的领域概念集,检索领域语料,查找同时含有两个或两个以上领域概念的句子,然后将句子中的领域概念两两组对,形成候选关系词对集;(2).训练:输入是每一个候选词对和每一个候选词对所在的句子,输出是一个训练好的分类模型,在获得候选领域概念关系词对集后也需要将这些特征词对表示成计算机可以识别的格式,以训练分类模型,得到分类器,通过对标注语料的分析,选用词序特征、词形特征和上下文特征这三类特征,采用相关标引方法,组成特征向量表示每一个候选词对,在将候选概念关系表示成特征向量之后,使用分类算法,从标注的训练数据中,学习一个推广性能最好的分类模型,项目结合朴素贝叶斯和感知器两种分类算法的优点,提出混合分类算法,用以训练领域概念关系分类模型,取得较好的效果;(3).分类:将新文本中的所有可能关系词对分别对应于同义关系分类器、上下文关系分类器、整体一部分分类器,经过归一化处理后,选择分值最高所对应的类别作为该词对的最终类别。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海申腾信息技术有限公司,未经上海申腾信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610329755.5/,转载请声明来源钻瓜专利网。