master: 192.168.56.102
slave:[192.168.56.106, 192.168.56.107,192.168.56.108]
下载和配置环境变量
master节点
/etc/profile
export JAVA_HOME=/usr/local/java/jdk1.7.0_75 export PATH=$JAVA_HOME/bin/:$PATH export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar export HADOOP_HOME=/home/u2/hadoop-2.6.0 export PATH=$PATH:$HADOOP_HOME/bin export M2_HOME=/home/u2/apache-maven-3.3.1 export PATH=$M2_HOME/bin:$PATH export SCALA_HOME=/usr/local/scala/scala-2.11.6 export PATH=$SCALA_HOME/bin:$PATH export SPARK_HOME=/home/u2/spark-1.3.0-bin-hadoop2.4 export PATH=$SPARK_HOME/bin:$PATH
cd ~/hadoop-2.6.0/
etc/hadoop/core-site.xml
<configuration> <property> <name>hadoop.tmp.dir</name> <value>/home/u2/hadoopdata/tmp</value> <description>Abase for other temporary directories.</description> </property> <property> <name>fs.defaultFS</name> <value>hdfs://192.168.56.102:9000</value> </property> <property> <name>io.file.buffer.size</name> <value>4096</value> </property> </configuration>
etc/hadoop/hdfs-site.xml
<configuration> <property> <name>dfs.nameservices</name> <value>hadoop-cluster1</value> </property> <property> <name>dfs.namenode.secondary.http-address</name> <value>192.168.56.102:50090</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>file:///home/u2/hadoopdata/dfs/name</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>file:///home/u2/hadoopdata/dfs/data</value> </property> <property> <name>dfs.replication</name> <value>2</value> </property> <property> <name>dfs.webhdfs.enabled</name> <value>true</value> </property> </configuration>
etc/hadoop/yarn-site.xml
<configuration> <!-- Site specific YARN configuration properties --> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.resourcemanager.address</name> <value>192.168.56.102:8032</value> </property> <property> <name>yarn.resourcemanager.scheduler.address</name> <value>192.168.56.102:8030</value> </property> <property> <name>yarn.resourcemanager.resource-tracker.address</name> <value>192.168.56.102:8031</value> </property> <property> <name>yarn.resourcemanager.admin.address</name> <value>192.168.56.102:8033</value> </property> <property> <name>yarn.resourcemanager.webapp.address</name> <value>192.168.56.102:8088</value> </property> </configuration>
etc/hadoop/mapred-site.xml
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> <property> <name>mapreduce.jobtracker.http.address</name> <value>192.168.56.102:50030</value> </property> <property> <name>mapreduce.jobhistory.address</name> <value>192.168.56.102:10020</value> </property> <property> <name>mapreduce.jobhistory.webapp.address</name> <value>192.168.56.102:19888</value> </property> </configuration>
etc/hadoop/hadoop-env.sh 增加
export JAVA_HOME=/usr/local/java/jdk1.7.0_75
etc/hadoop/slaves
192.168.56.106 192.168.56.107 192.168.56.108
cd ~/spark-1.3.0-bin-hadoop2.4/
conf/spark-env.sh增加
export SCALA_HOME=/usr/local/scala/scala-2.11.6 export JAVA_HOME=/usr/local/java/jdk1.7.0_75 export SPARK_MASTER_IP=192.168.56.102 export SPARK_WORKER_MEMORY=1000m export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
conf/slaves
192.168.56.102 192.168.56.106 192.168.56.107 192.168.56.108
ssh-keygen -t rsa
ssh-copy-id -i ~/.ssh/id_rsa.pub u2@192.168.56.106
ssh-copy-id -i ~/.ssh/id_rsa.pub u2@192.168.56.107
ssh-copy-id -i ~/.ssh/id_rsa.pub u2@192.168.56.108
cd ~/
scp -r spark-1.3.0-bin-hadoop2.4 u2@192.168.56.106:~/
scp -r hadoop-2.6.0 u2@192.168.56.106:~/
scp -r spark-1.3.0-bin-hadoop2.4 u2@192.168.56.107:~/
scp -r hadoop-2.6.0 u2@192.168.56.107:~/
scp -r spark-1.3.0-bin-hadoop2.4 u2@192.168.56.108:~/
scp -r hadoop-2.6.0 u2@192.168.56.108:~/
3个slave环境变量配好。记得source /etc/profile
cd ~/hadoop-2.6.0/ ./sbin/start-all.sh cd ~/spark-1.3.0-bin-hadoop2.4/ ./sbin/start-all.sh
打开http://192.168.56.102:8088/cluster/nodes
打开http://192.168.56.102:8080/
cd ~/hadoop hdfs dfs -mkdir /input/json/ hdfs dfs -put friends_timeline.json /input/json/friends_timeline.json cd ~/spark-1.3.0-bin-hadoop2.4 ./bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode cluster --executor-cores 1 --queue default examples/jars/spark-examples*.jar 10 ./bin/spark-shell scala>import org.apache.spark.SparkContext._ scala>val sqlContext = new org.apache.spark.sql.SQLContext(sc) scala>val table = sqlContext.jsonFile("hdfs://192.168.56.102:9000/input/json/friends_timeline") scala>table.printSchema()
相关推荐
1、内容概要:Hadoop+Spark+Hive+HBase+Oozie+Kafka+Flume+Flink+Elasticsearch+Redash等大数据集群及组件搭建指南(详细搭建步骤+实践过程问题总结)。 2、适合人群:大数据运维、大数据相关技术及组件初学者。 3、...
毕业设计-基于Hadoop+Spark的大数据金融信贷风险控系统源码.zip毕业设计-基于Hadoop+Spark的大数据金融信贷风险控系统源码.zip毕业设计-基于Hadoop+Spark的大数据金融信贷风险控系统源码.zip毕业设计-基于Hadoop+...
hadoop+spark+hive Linux centos大数据集群搭建,简单易懂,从0到1搭建大数据集群
Hadoop、Spark、hive、mapReduce经典学习资料
徐老师大数据培训Hadoop+HBase+ZooKeeper+Spark+Kafka+Scala+Ambari
win10下搭建Hadoop(jdk+mysql+hadoop+scala+hive+spark),包括jdk的安装、mysql安装和配置,hadoop安装和配置,scala安装和配置,hive安装和配置,spark安装和配置。
项目源码:基于Hadoop+Spark招聘推荐可视化系统 大数据项目 计算机毕业设计项目源码:基于Hadoop+Spark招聘推荐可视化系统 大数据项目 计算机毕业设计项目源码:基于Hadoop+Spark招聘推荐可视化系统 大数据项目 ...
通过VirtualBox安装多台虚拟机,实现集群环境搭建。 优势:一台电脑即可。 应用场景:测试,学习。...内附百度网盘下载地址,有hadoop+zookeeper+spark+kafka等等·····需要的安装包和配置文件
七月在线七月在线## Note, this file is written by cloud-init on first boot of an instance
windows系统下eclipse集成hadoop,spark,hive开发环境
基于Hadoop+Spark的大数据金融信贷风险控系统源码+项目说明.zip个人经导师指导并认可通过的高分毕业设计项目,主要针对计算机相关专业的正在做毕设的学生和需要项目实战练习的学习者。也可作为课程设计、期末大作业...
大数据 hadoop spark hbase ambari全套视频教程(购买的付费视频)
全套的Hadoop+Hbase+Spark+Hive搭建指导手册
毕业设计-基于Hadoop+Spark的大数据金融信贷风险控系统源码(高分项目).zip个人经导师指导并认可通过的高分毕业设计项目,主要针对计算机相关专业的正在做毕设的学生和需要项目实战练习的学习者。也可作为课程设计...
毕业设计基于hadoop+spark完全分布式平台的薪资水平预测系统源码(高分项目).zip本资源中的源码都是经过本地编译过可运行的,下载后按照文档配置好环境就可以运行。资源项目的难度比较适中,内容都是经过助教老师...
Python毕业设计-基于Hadoop+Spark+Django的LSH电影推荐系统的设计与实现+使用说明+全部资料(优秀项目)Python毕业设计-基于Hadoop+Spark+Django的LSH电影推荐系统的设计与实现+使用说明+全部资料(优秀项目)Python...
HadoopSparkExampler,Hadoop+Spark大数据巨量分析演示代码
本资源中的源码都是经过本地编译过可运行的,下载后按照文档配置好环境就可以运行。资源项目的难度比较适中,内容都是经过助教老师审定过的,应该能够满足学习、使用需求,如果有需要的话可以放心下载使用。...
看这一篇就够啦,给出一个完全分布式hadoop+spark集群搭建完整文档,从环境准备(包括机器名,ip映射步骤,ssh免密,Java等)开始,包括zookeeper,hadoop,hive,spark,eclipse/idea安装全过程,3-4节点,集群部署...