这是基于spark的电影推(tuī)荐系统(tǒng)数据集下(xià)载(zǎi),博(bó)主一年(nián)前写过一个这样的文章,电影推荐也是博(bó)主一年(nián)前(qián)就学习过(guò)的,温故而知新,重新拿出来好(hǎo)好重新(xīn)研究一番。
随(suí)着大数据时代的到来,数据当中挖取金(jīn)子的工作越来越有(yǒu)吸引(yǐn)力。利用Spark在内存迭代运算(suàn)、机器学习领域(yù)强悍性能的(de)优势,使用spark处理数据挖(wā)掘问题就显得很有实际价值(zhí)。这篇文章给大家分享一个(gè)spark MLlib 的推荐实战(zhàn)例(lì)子。我将会分享怎样用spark MLlib做一个电影评分(fèn)的推(tuī)荐(jiàn)系统。使(shǐ)用到的算法是(shì)user-based协同过滤(lǜ)。如果(guǒ)对Spark MLlib不太了(le)解的,请阅(yuè)读我的上一篇(piān)博客。
1. 拷贝(bèi)spark-assembly-1.4.1-hadoop2.6.0.jar到WebContent/WEB-INF/lib目(mù)录;
(spark-assembly-1.4.1-hadoop2.6.0.jar文(wén)件由原生spark-assembly-1.4.1-hadoop2.6.0.jar删除javax/servlet包获(huò)得,由于太(tài)大,所以就没有上传了);
2. 拷贝(bèi)原(yuán)生spark-assembly-1.4.1-hadoop2.6.0.jar文件到HDFS(目录和代码中一致);
3. 拷贝(bèi)WebContent/WEB-INF/lib目录中的Spark141-als.jar到HDFS(目录和代码(mǎ)中保(bǎo)持一(yī)致);
4. 拷贝Hadoop集群(调用所使(shǐ)用的(de)集群,每个(gè)人不一样(yàng))配置文件yarn-site.xml到HDFS(目(mù)录和代码中保(bǎo)持一致);
5. 修改(gǎi)相关配置文件,由于hadoop相关配置、系统的(de)一些属性需要修改为实际的(de)配(pèi)置(zhì)及属性,所以针对这(zhè)些需要进行(háng)修(xiū)改(后面版本中会对(duì)此单独一个配置(zhì)文件)。
