[发明专利]产品特征标签的提取方法及装置有效
申请号: | 201410119711.0 | 申请日: | 2014-03-27 |
公开(公告)号: | CN104951430B | 公开(公告)日: | 2019-03-12 |
发明(设计)人: | 严紫丹 | 申请(专利权)人: | 上海携程商务有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 上海弼兴律师事务所 31283 | 代理人: | 薛琦;王婧荷 |
地址: | 200335 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种产品特征标签的提取方法及装置,包括有以下步骤:S1、抓取产品类型的所有评论并预设主题;S2、将同一主题的评论内容合并为一文本;S3、抽取出现次数最多的若干词语,以构成一常用词集合;S4、生成TF‑IDF矩阵;S5、从TF‑IDF矩阵的每一行抽取值最大的若干元素对应的词语;S6、将从TF‑IDF矩阵中抽取所得的全部词语集合在一起形成关键词集合;S7、从单独产品的全部评论中抽取包含有关键词集合中的词语的单独产品的特征标签。通过预设主题后再抽取词语组成常用词集合,进而通过TF‑IDF矩阵整理出关键词集合,优选出评论中的短语作为特征标签,降低了噪声干扰,使得产品的特征标签更为准确。 | ||
搜索关键词: | 产品 特征 标签 提取 方法 装置 | ||
【主权项】:
1.一种产品特征标签的提取方法,其特征在于,其包括有以下步骤;S1、抓取一产品类型的所有评论,所述评论预设有若干个主题;S2、将同一主题的全部所述评论的内容合并为一文本;S3、从每一所述文本抽取出现次数最多的若干词语,以构成一常用词集合;S4、生成一TF‑IDF矩阵,所述TF‑IDF矩阵的行对应每一所述文本,列对应全部所述文本中的每一词语,所述TF‑IDF矩阵中的每一元素的取值根据以下公式计算:
其中,e为TF‑IDF矩阵中的元素的取值,n为该元素对应的所述词语在对应的所述文本中的出现次数,k为该元素对应的所述文本中的总词语数,a为所述TF‑IDF矩阵的行数,b为所述TF‑IDF矩阵中该元素对应的词语数不为0的行数;S5、从所述TF‑IDF矩阵的每一行中抽取值最大的若干元素对应的所述词语;S6、将从所述TF‑IDF矩阵中抽取所得的全部所述词语集合在一起形成一关键词集合;S7、从一单独产品的全部评论中抽取包含有所述关键词集合中的词语的一短语作为所述单独产品的特征标签,所述短语为文本中由分隔符分隔形成的文字段;所述S7包括以下步骤:S701、将所述产品类型中的每一产品的所有评论分别合并成一第二文本;S702、生成一第二词频矩阵,所述第二词频矩阵的行对应每一所述第二文本,列对应全部所述常用词集合中的词语,元素的取值为每一列所对应的词语在每一行所对应的所述第二文本中的出现次数;S703、生成一第二TF‑IDF矩阵,所述第二TF‑IDF矩阵的行对应每一所述第二文本,列对应全部所述第二文本中的每一词语,所述第二TF‑IDF矩阵中的每一元素的取值根据以下公式计算:
其中,e2为第二TF‑IDF矩阵中的元素的取值,n2为该元素对应的所述词语在对应的所述第二文本中的出现次数,k2为该元素对应的所述第二文本中的总词语数,a2为所述第二TF‑IDF矩阵的行数,b2为所述第二TF‑IDF矩阵中该元素对应的词语数不为0的行数;S704、从所述单独产品所对应的所述第二词频矩阵和所述第二TF‑IDF矩阵的行中,分别抽取对应的元素取值最大且属于所述关键词集合的若干个词语,并将抽取的所有词语合并形成一产品关键词集合;S705、将所述单独产品所对应的所述第二文本按照分隔符拆分成若干个所述短语;S706、从所述产品关键词集合中选取一个词语作为关键词,从所述若干个短语中筛选出包含有所述关键词的短语,从筛选出的所述短语中选出一与其余短语共有词语最多的短语作为所述关键词对应的特征标签;S707、重复S706得出所有关键词所对应的特征标签;S708、将所述特征标签存储至数据库。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海携程商务有限公司,未经上海携程商务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410119711.0/,转载请声明来源钻瓜专利网。