[发明专利]主题模型和语义分析相结合的文本标签自动抽取方法有效
申请号: | 201610361639.1 | 申请日: | 2016-05-26 |
公开(公告)号: | CN106055538B | 公开(公告)日: | 2019-03-08 |
发明(设计)人: | 于敬 | 申请(专利权)人: | 达而观信息科技(上海)有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京卓唐知识产权代理有限公司 11541 | 代理人: | 龚洁 |
地址: | 200000 上海市浦东新*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及主题模型和语义分析相结合的文本标签自动抽取方法,属于计算机应用技术领域。本发明包括预处理、LDA建模及上下文分析和标签提取。所述预处理包括去掉低频词、去掉停止词及去掉标记信息所述停止词是几乎不携带任何信息的助词、反映句子语法结构的词语和所有虚词以及标点符号;LDA建模过程为:文件经过LDA模型处理后,得到两个矩阵:一个是N×K的“文档‑主题”矩阵,矩阵的每个元素对应的是每个文档的隐含主题分布;另一个是K×M“主题‑词”矩阵,矩阵的每个元素对应的是每个主题的词分布;相比目前的基于统计的方法,本发明不仅考虑了文档中词和词的关联,也充分利用了上下文信息中一些关键特征,最终得到文档的标签信息。 | ||
搜索关键词: | 主题 模型 语义 分析 相结合 文本 标签 自动 抽取 方法 | ||
【主权项】:
1.主题模型和语义分析相结合的文本标签自动抽取方法,其特征在于:包括如下步骤:第一步:预处理,如果出现低频词、停止词和标记信息,所述预处理包括去掉低频词、去掉停止词及去掉标记信息;所述低频词只在一到两个文本中出现过,所述停止词是几乎不携带任何信息的助词、反映句子语法结构的词语和所有虚词以及标点符号,所述标记信息是网页文本或其他的标记语言文本信息;其他的标记语言文本信息包括html和css;第二步:LDA建模及上下文分析;LDA建模过程为:文件经过LDA模型处理后,得到两个矩阵:一个是N×K的“文档‑主题”矩阵,矩阵的每个元素对应的是每个文档的隐含主题分布;另一个是K×M“主题‑词”矩阵,矩阵的每个元素对应的是每个主题的词分布;上下文分析包括以下几个维度:(1)词频次,(2)文档频次,(3)词性,(4)词位置,(5)TF‑IDF;上下文分析的方法包括如下步骤,①根据文本的html标签信息,获取各段文本所在的位置信息;②对文本进行分词处理和词性标记,得到各个独立的词及词性信息;③使用业界公知的方法计算词频次、文档频次和TF‑IDF;第三步:标签提取,所述第三步中,标签提取的方法如下,结合LDA模型的结果和词上下文分析得到的特征量,得到文本d词w的权重为:Weight(d,w)=α|ScoreLDA(d,w)+β|Scoreword(d,w),其中ScoreLDA(d,w)表示词w在文档d中的LDA计算的得分,表示词w在文档d中的上下文分析后的得分,α和β代表LDA算法和上下文分析方法的权重,K表示LDA模型设置的主题数,Topic(t,d)表示“文档‑主题”矩阵中文档d的第t个主题的概率值,Word(w,t)表示“主题‑词”矩阵中主题t的词w的概率值,Scoreword(d,w)=ρ|TfIdf(w,d)+γ|f(w,d)+ξ|g(w,d)+μ|ρ(w,d)+σ|γ(w);TfIdf(w,d)表示文档d中词w的TF‑IDF值,f(w,d)表示词w在文档d中词频次,g(w,d)表示词w在文档d中文档频次,ρ(w,d)表示词的位置,γ(w)表示词的词性,ρ、γ、ξ、μ、σ分别表示TF‑IDF、词频次、文档频次、词位置和词性在词上下文分析算法中的权重,为常数,f(w,d)、g(w,d)、ρ(w,d)和γ(w)都是离散函数,分别映射到不同的区间,经过上面的计算,得到文档d中的每个词w的Weight(d,w),按照大小从高到低排序,取最大的若干个词或者短语作为文档的标签。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于达而观信息科技(上海)有限公司,未经达而观信息科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610361639.1/,转载请声明来源钻瓜专利网。