基于搜索数据的用户基本属性混合预测模型研究大数据时代必然会导致“信息过载(information overload)”现象,企业如何在海量的用户行为数据中准确判断用户属性,是精准营销等领域值得思考的问题。
特别是在搜索领域,搜索公司几乎无法获得用户的真实属性信息,但用户的基本属性很大程度上可以影响到用户查看不同广告的可能性。
基于背景,利用Doc2Vec、TF-IDF算法对搜索数据进行特征提取,并借助机器学习算法、XGBoost 算法构建了用户基本属性混合预测模型,并对模型的准确性进行了检验。
标签:搜索数据;Doc2Vec;TF-IDF;机器学习算法;用户基本属性混合预测模型1 引言据CNNIC最新数据显示,截至2017年6月,我国网民规模达到7.51亿,半年共计新增网民1992万人,半年增长率为2.7%。
互联网给我们带来便利的同时,也带了很多安全隐患。
2016年12月10日,京东一个12G的数据包被流传到网上,其中包括京东注册用户的姓名、密码、邮箱、QQ号、电话号码、身份证等多个维度的数据,数据量达到了千万条。
2017年国内外网络信息安全泄露事件主要有58同城全国简历泄露、国外巨头Dun%Bradstreet 52G数据库遭泄露、印度麦当劳220W用户收据遭泄露等。
随着近年来信息泄密事件的频繁发生,用户越来越不愿意将自己的真实属性及其他信息透漏给第三方平台。
对于搜索企业,其主要的收入来源于广告。
艾瑞咨询发布的《2017年中国网络广告市场年度监测报告》中显示,2016年,互联网广告的市场份额为2902.7亿元。
报告中指出2016年电商广告的市场份额已经超过搜索广告,并且有逐渐增长的趋势。
爱奇艺通过预测用户性别属性,进行个性化广告投放,广告营收方面增加了数十亿元。
用户性别、年龄和教育水平均会对搜索企业广告投放效果产生影响。
目前基于搜索数据的用户基本属性预测研究仍是空白。
本研究通过对搜狗公司2016年20w用户搜索词进行分析,从Doc2Vec特征、TF-IDF特征两个维度进行用户搜索词特征的度量,并通过机器学习等相关算法对模型进行训练和融合,得到最终的基本属性混合预测模型性。
2 国内外研究现状2.1 短文本分析在文本分析方面,Salton(1973)在1973年提出了TF-IDF算法,衡量了不同詞对于文章的重要性。
Blei等(2003)提出了的LDA(Latent Dirichlet Allocation)算法。
目前,被广泛使用的Word2Vec词向量计算模型是由Google的Tomas Mikolv团队提出的。
Mikolov(2014)提出了Doc2Vec文档向量表示方式,可以获得句子或文档的向量表示。
龚才春(2008)提出了短文本网络的概念,并提出了两类短文本网络的构建方法。
潘博等(2018)用文本深度表示模型Doc2Vec,证明了该方法能更深入地表示出文本的语义特征。
2.2 用户基本属性预测夏勇(2015)基于手机应用日志数据,采用常用的四种分类预测算法作为基础算法,实现对用户基础属性分类预测。
陶建容(2017)通过从智能手机的应用中挖掘性别、年龄等个人信息以及用户的兴趣爱好和生活习惯属性,对比了不同手机应用的用户属性挖掘能力。
王斯盾(2017)等将基本属性作为特征训练集成分类器中的各个基分类器,并引入随机森林中的带外样本准确率作为基分类器的权重,通过实证研究证明了该方法可以提高用户属性预测的效果。
目前国内外在本文本分析方面,主要使用的是LDA、Word2Vec、TF-IDF、Doc2Vec等算法进行文本特征提取,本文考虑到搜索词数据的特征性,最终选择从Doc2Vec、TF-IDF两个维度刻画用户搜索数据的特征,并将获得的特征作为机器学习算法的输入,通过模型训练和融合构建用户基本属性混合预测模型。
本研究不仅填充了基于搜索数据用户基本属性的预测研究的空白,也可以将其扩充到其他领域。
3 基于搜索数据的用户特征提取3.1 数据预处理3.1.1 数据介绍本研究的数据来源于2016年CCF大数据与计算智能大赛。
数据提供了搜狗用户历史一个月的查询词与用户的人口属性标签。
该数据源提供了10w条带标注的训练数据和10w条测试数据。
带标签的数据一共有5个字段,分别为id、年龄、性别、教育水平和搜索词列表;无标签的数据一共有2个字段,分别为id 和搜索词列表。
字段说明如表1所示,原始样本如表2所示。
3.1.2 JIEBA分词本研究在对比了JIEBA、THULC、NLPIR三种分词工具的分词效果后,最终选择了JIEBA分词工具进行分词。
分词效果如表3所示。
本研究考虑到停用词无法反应用户的搜索需求,因此,本研究使用哈工大停用词词库对用户搜索词中的停用词进行了过滤。
3.2 基于Doc2Vec的特征提取本研究分别使用了Doc2Vec的DM模型和DBOW模型进行用户搜索数据的文档特征提取。
主要参数size文档维度设置为100,min_count设置为3,当词出现的次数小于3时,会被舍弃,dm设置为1代表使用DM模型,使用DBOW模型进行文档特征提取时,只需将dm参数改为0即可。
本研究在此仅展示由DM 模型训练出来的部分文档特征,如表4所示。
3.3 基于TF-IDF的特征提取本研究将分词结果作为输入,将min_df设置为3,将max_df设置为0.95会过滤词数出现在少于3个或出现在多于95%的词,可以减少一些无用的信息。
观察最终的结果,发现每个向量会存在稀疏性问题。
部分TF-IDF特征值的输出结果整理后如表5所示。
如果某个词在某个文档中没有出现,则评分为0。
对于表5中所列出来的5个词,可以分析出,“中国”这个词在第1个和最后一个用户的搜索词中没有出现过,在第2个、第3个和第4个用户的搜索词中出现过,所以,它的权重较高。
4 基于搜索数据的用户基本属性混合预测模型4.1 基于Doc2Vec的基本属性预测模型对Doc2Vec特征进行处理时,本研究分别尝试了LR和BPNN两种算法进行对比,同一组特征在两种不同算法下的准确率对比结果如表6所示。
从图1中可以更加直观的看出基于DBOW模型的预测准确率比基于DM模型的准确率高。
BPNN的效果在各个属性的表现上都要优于LR算法。
因此,本研究最终了使用DBOW模型进行用户搜索数据的文档特征提取,并给予BPNN 算法进行预测模型的训练。
4.2 基于TF-IDF的基本属性预测模型对TF-IDF特征进行建模时,本研究尝试了LR和SVM两种算法,对同一批特征下,两个模型的准确率如表7所示。
TF-IDF_SVM模型下教育水平属性的准确率为60.09%,年龄属性的准确率为59.37%,性别属性的准确率为68.12%。
从图2中可以更直观的看出,在对用户的性别、年龄进行预测时,SVM的效果较佳,但对教育水平属性进行预测时,LR的效果较佳。
本研究综合考虑了LR和SVM模型的准确率对比,在对TF-IDF特征进行建模时,本研究根据平均成绩最终选择了SVM模型。
4.3 基于XGBoost的模型融合使用XGBoost进行模型融合时,本研究的具体操作如下,利用Gradient Boosting为用户每个基本属性特征,性别、年龄、教育水平分別建立一个ensemble 模型,该模型会对基于TD-IDF、Doc2Vec两类特征的模型输出进行融合。
融合后的模型准确率如表8所示。
4.4 模型修正本研究获得的TF-IDF特征矩阵具有较强的稀疏性,在这方面Word2Vec的算法就做得很好。
而且Word2Vec可以做到降维,解决TF-IDF的稀疏性问题。
本文基于改进后的TF-IDF特征和过滤掉缺失标签样本的数据,再次使用LR算法和SVM算法,对模型的准确性进行了评估。
结果如表9所示。
对比表7模型在各个属性的准确率上都有较大的改进。
4.5 模型效果本文将改进后的基于TF-IDF特征的预测模型与基于Doc2Vec的预测模型,再次进行融合,使用同一批特征数据,基于改进后的用户基本属性混合预测模型的准确率如表10所示。
对比融合之前的结果,模型在各个属性维度上的预测准确性均有一定的特征,证明了模型修正和模型融合的有效性。
本研究为了直观的展示研究结果,使用了TSNE降维可视化工具对结果进行展示。
使用TSNE降维的效果分别如图3、图4、图5所示。
5 模型验证5.1 数据描述本研究的验证数据来源于2016年CCF大数据与计算智能大赛提供的10w 条无属性标签的数据。
实验数据主要由两部分组成,一部分是用户id,一部分是用户搜索词列表。
本文在此展示前5名用户的部分搜索词数据,如表11所示。
5.2 特征提取将10w条实验数据作为用户基本属性混合预测模型的输入,在模型训练时,首先会对用户搜索词进行分词,将分词后的结果,分别计算出Doc2Vec-DBOW 文档特征和TF-IDF特征值。
前5名用的部分Doc2Vec -DBOW特征如表12所示,部分TF-IDF特征如表13所示。
根据表13中TF-IDF值的大小,可以推测出第3号用户的搜索词中比较频繁的出现“那么”两个字,所以TF-IDF值较小。
5.3 用户基本属性混合预测模型的应用模型的输出结果如表14所示,可以看出,用户基本属性混合预测模型认为第一位用户的年龄为19-23岁,性别为女,教育水平为高中。
观察第一位用户的搜索词,用户的搜索词中多次出现“陈学冬”等词。
根据常识,可以推测第一位用户比较年轻,性别为女的可能性很大。
搜索词中出现了“中南大学”等词,可以推测出用户是一名学生的可能性较大。
用户基本属性混合预测模型输出出来的结果和对第一位用户搜索词的分析结果一致,说明了该模型具有一定的有效性。
5.4 结果分析本研究统计了10w条实验数据的基本属性预测结果,对比原始数据中带标签的10w条用户的基本属性分布情况,如图6、图7、图8所示,两者的用户属性的数据分布基本一致,说明了实验数据的有效性和最终模型的科学性。
6 总结本研究借助搜狗用户搜索词数据,建立了用户基本属性混合预测模型,并通过实证分析,证明了模型的有效性。
本研究提出的基于搜索数据的用户画像基本属性混合预测模型,既可以解决大数据背景下搜索领域短文本数据的特征提取问题,又可以解决搜索用户基本属性的预测问题,也可以将其推广到与搜索词相关的短文本语义预测领域。
参考文献[1]张芃.搜索引擎广告效果影响因素研究[D].济南:山东大学,2010.[2]Salton G,Yu C T.On the construction of effective vocabularies for information retrieval[J].Acm Sigplan Notices,1973,10(1):48-60.[3]Blei D M,Ng A Y,Jordan M tent dirichlet allocation[J].J Machine Learning Research Archive,2003,(3):993-1022.[4]Mikolov T,Chen K,Corrado G,et al.Efficient Estimation of Word Representations in Vector Space[J].Computer Science,2013.[5]Le Q V,Mikolov T.Distributed Representations of Sentences and Documents[J].2014,(4):II-1188.[6]潘博,张青川,于重重,曹帅.Doc2vec在薪水预测中的应用研究[J].计算机应用研究,2018,35(01):155-157.[7]龚才春.短文本语言计算的关键技术研究[D].北京:中国科学院研究生院(计算技术研究所),2008.[8]夏勇.基于手机应用日志的用户基础属性预测[D].成都:电子科技大学,2015.[9]陶建容.基于智能手机应用数据的用户属性挖掘[D].杭州:浙江大学,2017.[10]王斯盾,琚生根,周刚,刘玉娇.基于集成分类器的用户属性预测研究[J].四川大学学报(自然科学版),2017,54(06):1195-1201.[11]唐明,朱磊,邹显春.基于Word2Vec的一种文档向量表示[J].计算机科学,2016,43(6):214-217.。