[发明专利]一种基于图书目录的专题自动生成方法有效
申请号: | 201610188009.9 | 申请日: | 2016-03-29 |
公开(公告)号: | CN105893485B | 公开(公告)日: | 2019-02-12 |
发明(设计)人: | 鲁伟明;李彬;庄越挺;吴飞;魏宝刚 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F16/38 | 分类号: | G06F16/38;G06K9/62 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 郑海峰 |
地址: | 310027 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于图书目录的专题自动生成方法。对每一本书,把目录中每个章节当作一个词语,提取出词语的特征,训练出一个分类器识别出书目录中的实体,对于书目录中每一对属于实体的上下级章节词抽取出符合上下位关系的章节对。根据上下位关系构建每个词的概念层次结构,对所有图书中相同的或相似的概念层次进行融合。对概念层次中的每一个概念词语,检索其在网页中和图书中的内容作为该词语的描述内容。最后,把概念层次及概念词内容组织成专题形式。本发明利用图书目录的结构化信息和机器学习相关算法实现了知识的抽取和重组,在编写专题时可以借鉴,可以大大减少相关工作的人力成本,具有较高的实用性。 | ||
搜索关键词: | 一种 基于 图书目录 专题 自动 生成 方法 | ||
【主权项】:
1.一种基于图书目录的专题自动生成方法,其特征在于包括以下步骤:1)数据预处理:利用光学字符识别技术将图书数字化,从数字化的图书中抽取出图书目录和正文,去除目录中章节序号,以及停用词,分别对目录章节和正文构建索引,另外利用word2vec训练出每个目录词的向量表示;2).实体识别:分析实体的特征,对目录章节索引中的所有章节词,分析每个章节词是否满足实体特征,利用SVM分类器进行分类,修改原有目录章节索引,将目录章节中所有分类后不属于实体的词去掉形成新的索引;所述的实体识别步骤为:2.1)提取每个词的特征,实体的特征具体包括3类:单词特征、词性特征、目录语义特征,单词特征包括词语长度、词的词性组成以及该词是否被百度百科收录;词的词性组成是指利用自然语言处理工具对词语进行分词之后词组的词性组成;目录语义特征是指目录中每个章节与上下文章节之间的关系、利用word2vec训练出的词向量分别计算该词与上下文词之间的相似度和上下文章节词是否被百度百科中收录;2.2)根据上一步提取的实体的特征,标记一部分实体章节词和非实体章节词作为训练集,利用weka中SVM分类器进行分类,修改原有目录章节索引,将目录章节中所有分类后不属于实体的词去掉形成新的索引Concept;3).上下位词抽取:分析上下位词的特征,对上一步构建的索引中的每一对上下级章节词,分析其是否满足上下位词的特征,利用Adaboost分类器进行分类,将所有分类后满足上下位关系的词对写入新的索引中,新索引中根据不同的字段来区分上位词、下位词和图书;所述的上下位词的抽取过程为:3.1).对在2.2)中生成的Concept索引中的每一对上级章节实体词x和下级实体词y,抽取分类特征,上下位词的分类特征包括3类:上下位模式特征、语义特征和目录结构特征;上下位模式特征有x和y是否共享前缀或后缀;语义特征有归一化谷歌距离NGD、归一化编辑距离NED、分类相似度和word2vec距离;目录结构特征有归一化目录距离NCD和以该词作为下级章节的不同的上级章节数;谷歌距离NGD的计算方式为:
NGD(x,y)表示利用归一化谷歌距离计算出来的x,y的相关关系,N(x)表示利用谷歌搜索“x”搜索出来的结果条数;N(y)表示利用谷歌搜索“y”搜索出来的结果条数;N(x,y)表示利用谷歌搜索“x y”搜索出来的结果条数;M为谷歌索引的所有文档总数;NED计算方式为:
其中len(x)表示字符串x的长度,len(y)表示字符串y的长度,ED(x,y)表示x,y之间的最小编辑距离,NED越小,表示两词之间差距越小,关系越密切,反之关系越疏远;分类相似度:利用词在百科中的分类标签作为词条的分类,计算x的分类和y的分类是否存在交集;word2vec距离:利用word2vec进行训练后,最终每个章节词都被表示成一个k维向量,利用向量的余弦距离计算上级章节和下级章节之间的距离;归一化目录距离:利用归一化目录距离的公式计算x,y的目录距离,
N(x,y)表示以x作为上级章节词,y作为下级章节词,两者同时出现在同一目录上下级章节中的次数,N(x)表示x单独出现在目录章节中的次数,N(y)表示y单独出现在目录章节中的次数,M表示所有图书包含的目录条数;该词作为下级章节的不同的上级章节数:对Concept索引中每个词直接利用hash表统计其上级章节词出现的个数;3.2)根据上一步提取的特征,标记一部分上下位目录章节词和非上下位目录章节词作为训练集,利用weka中Adaboost分类器进行分类,分类完成后,整理每个词及其所有下位词,最后对其构建索引Hypernymy,索引字段为图书编号,上位目录章节词,上位目录章节词的所有下位目录章节词,下位目录章节词之间通过特殊符号分割;4).概念层次融合:利用上一步生成的索引,对每一本书,把上位词和其所有下位词作为一组,对所有的图书中相同的上位词,计算其下位词相似度,把相似度大于设定阈值的上位词进行融合;所述的概念层次的融合过程为:通过3.2)对于某本书中的一个实体X,可以获得它的所有的下级实体词y1,y2,…yn,n表示X 的下级词的个数,融合可能存在两种情况:1.在某本图书a中抽取的上下位关系为{Xa,[y1,y2,…yn]},其中Xa表示图书a中的一个实体X,y1,y2,…yn表示在图书a中的实体X的下位目录章节词,在另一本图书中抽取的上下位关系为{Xb,[u1,u2,…um]},其中Xb表示图书b中的一个实体X,u1,u2,…um表示在图书b中的实体X的下位目录章节词,如果y1,y2,…yn与u1,u2,…um之间通过相似度函数计算的相似度大于特定阈值,则将Xa与Xb融合,相似度函数为:
融合结果为{X,[y1,y2,…yl]},l为融合之后X的下位章节词的个数,其中wvd(yi,uj)表示yi和uj用word2vec计算的向量距离;2.在某本图书中抽取的上下位关系为{Xa,[Y,y1,y2,…yn]},在另一本书中抽取的上下位关系为{Y,[u1,u2,…um]},如果y1,y2,…yn与u1,u2,…um之间通过相似度函数计算的相似度大于特定阈值,则将Xa与Y融合,相似度函数为:
融合结果为{Xa,[Y,y1,y2,…yl]},此时Xa的下位词包括融合之前本身的下位词以及属于Y但不属于Xa的下位词;5).专题生成:专题分为专题目录和专题内容,专题内容分为图书内容和网页内容,通过融合后的上下位词构建树形概念层次组成专题目录,利用数据预处理阶段生成的图书正文索引检索每个词所出现的图书章节和内容,同时利用百度百科检索每个词的网页内容。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610188009.9/,转载请声明来源钻瓜专利网。