[发明专利]基于大数据的创新创意标签自动标注方法及系统有效

申请号：	201710173029.3	申请日：	2017-03-22
公开（公告）号：	CN106997382B	公开（公告）日：	2020-12-01
发明（设计）人：	鹿旭东;张盘龙;陈志勇;郭伟;崔立真	申请（专利权）人：	山东大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06F16/9536;G06F40/289;G06F40/30;G06F40/216
代理公司：	济南圣达知识产权代理有限公司 37221	代理人：	黄海丽
地址：	250101 ***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了基于大数据的创新创意标签自动标注方法及系统，所述方法包括：使用搜狗语料库训练Word2vector和LDA得到训练结果集。将用户浏览页面的文档数据进行分词、去除停用词和词过滤处理。将预处理的文档数据，通过使用改进的TextRank算法Word2vector相结合计算出来源于本文数据的标签。并且将预处理的文档通过LDA计算得出关于文档数据主题的标签。通过生成标签云的方式实现可视化，并且将所有的本文标签词语在文档数据中标注出来，方便用户进行阅读和发现重点内容部分。
搜索关键词：	基于数据创新创意标签自动标注方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

基于大数据的创新创意标签自动标注方法，其特征是，包括：步骤(1)：模型训练：使用语料库对文本深度表示模型Word2vector进行训练，训练后得到语料库中所有词语和所有词语对应的向量模型文件，即得到训练好的Word2vector模型；使用语料库对文档主题生成模型LDA进行训练得到LDA结果集和训练好的LDA模型，所述LDA结果集包括若干个主题，每个主题包括属于所述主题的词语和词语属于所述主题的概率；步骤(2)：使用中科院ICTCLAS分词系统对用户当前浏览页面的数据文档进行分词操作，然后去除停用词；得到预处理后的数据文档；步骤(3)：生成本文标签和主题标签；步骤(4)：实现对最终的本文标签和主题标签的可视化。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于山东大学，未经山东大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201710173029.3/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于大数据的创新创意标签自动标注方法及系统有效

专利文献下载