[发明专利]基于描述文本词频的图模型移动应用分类方法在审
申请号: | 202011312652.0 | 申请日: | 2020-11-20 |
公开(公告)号: | CN112632984A | 公开(公告)日: | 2021-04-09 |
发明(设计)人: | 王兆煜;刘光杰;刘伟伟 | 申请(专利权)人: | 南京理工大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/284;G06F40/216;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 南京理工大学专利中心 32203 | 代理人: | 封睿 |
地址: | 210094 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 描述 文本 词频 模型 移动 应用 分类 方法 | ||
本发明提出了一种基于描述文本词频的图模型移动应用分类方法,利用分词工具将所有应用的描述文本分割成句子并对每个句子进行分词,对分词结果进行停用词过滤和低频词过滤。记录所有出现过的单个词组和应用所属的类别;取训练语料中每条文本的分词结果,以类别、词和应用作为节点,以词和类别、词和应用、词和词、类别和词之间的相关权值比重作为相应的边权重,构建无向图;使用两层的图卷积模型算法实现节点权重向量的迭代运算,使用softmax激活函数完成对移动应用的分类与预测。本发明能够提高移动应用分类的准确度,更有助于移动应用商店向用户提供服务。
技术领域
本发明涉及一种移动应用分类方法,尤其是一种基于描述文本词频的图模型移动应用分类方法。
背景技术
随着移动设备的日益普及,移动应用的数量呈现爆发式的增长。为了方便用户下载并使用,各类移动应用商店在网络上相继出现,如国内的豌豆荚、小米应用市场、腾讯商店,国外的App Store、Google Play等。这些应用商店主要通过两种方式向消费者提供移动应用下载和相应的后续服务:(1)用户通过输入关键词进行搜索,应用商店根据关键词查找并返回相关的移动应用;(2)应用商店根据用户的历史浏览和下载记录,以首页推荐等形式展示可能会吸引用户的移动应用。这两种方法都依赖于对移动应用的预先分类,良好的分类体系和对应用的精准分类结果能大大提高搜索服务和推荐服务的效率。通过将用户需求定位到某几种特定的应用分类簇,并从中更进一步的精准选择移动应用,可以有效地提升用户体验。
针对移动应用的分类问题已经有了一些研究结果,它们主要把移动应用分类问题转换成文本分类问题,其分类方法大多依赖于用户对应用的评论信息(如文字反馈和星级评价等)、应用名称、描述信息等,运用文本处理、主题模型、机器学习等方法实现移动应用主题的提取,并进一步完成移动应用的分类。这些方法都取得了一定的成果,但也存在着一些问题没有考虑。(1)用户的评论信息往往是无序且混乱的,其中包含了垃圾评论或仅是重复星级评价的文字,很难从中筛选和处理出有用的信息;(2)移动应用的描述信息质量参差不齐,且文本长度跨度较大,以往的文本表示技术往往不足以准确表征移动应用的文本内容; (3)移动应用描述文本中,不是所有的词都对移动应用的分类有相同的贡献。
发明内容
本发明的目的在于提出一种基于描述文本词频的图模型移动应用分类方法。
实现本发明目的的技术解决方案为:一种基于描述文本词频的图模型移动应用分类方法,具体步骤如下:
步骤1,利用分词工具将所有应用的描述文本分割成句子并对每个句子进行分词,对分词结果进行停用词过滤和低频词过滤。记录所有出现过的单个词组和应用所属的类别;
步骤2,取训练语料中每条文本的分词结果,以类别、词和应用作为节点,以词和类别、词和应用、词和词、类别和词之间的相关权值比重作为相应的边权重,构建无向图;
步骤3,使用两层的图卷积模型算法实现节点权重向量的迭代运算,使用 softmax激活函数完成对移动应用的分类与预测。
进一步的,步骤1中,利用分词工具将所有应用的描述文本分割成句子,并对每个句子进行分词,对分词结果进行停用词过滤和低频词过滤,记录所有出现过的单个词组和应用所属的类别,具体过程如下:
步骤1.1:语料分词和低频词统计:使用哈工大LTP工具对待分类的移动应用描述文本分别进行分句处理,进一步对分句后的结果进行分词和词性标注,对照百度自然语言实验室公开的停用词列表,去除其中包含的停用词;
步骤1.2:低频词过滤:分别统计分词结果中各词的全局频率和在单一类别下的出现频率,按照比例去除其中出现次数过少的词语,重新将结果保存,并计算每条训练语料在经过过滤后的文本长度,去除其中长度较小的语料,由此得到能充分支撑模型训练特征需求的文本语料;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011312652.0/2.html,转载请声明来源钻瓜专利网。