Как я могу получить доступ к S3 / S3n с локальной установки Hadoop 2.6?

Я пытаюсь воспроизвести кластер Amazon EMR на моей локальной машине. Для этой цели я установил последнюю стабильную версию Hadoop на данный момент – 2.6.0 . Теперь я хотел бы получить доступ к ведро S3, как и в кластере EMR.

Я добавил учетные данные aws в файле core-site.xml:

 fs.s3.awsAccessKeyId some id   fs.s3n.awsAccessKeyId some id   fs.s3.awsSecretAccessKey some key   fs.s3n.awsSecretAccessKey some key  

Примечание. Поскольку на клавише есть некоторые слэши, я избежал их с помощью% 2F

Если я попытаюсь перечислить содержимое ведра:

 hadoop fs -ls s3://some-url/bucket/ 

Я получаю эту ошибку:

ls: Нет Файловая система для схемы: s3

Я снова редактировал core-site.xml и добавил информацию, связанную с fs:

  fs.s3.impl org.apache.hadoop.fs.s3.S3FileSystem   fs.s3n.impl org.apache.hadoop.fs.s3native.NativeS3FileSystem  

На этот раз я получаю другую ошибку:

 -ls: Fatal internal error java.lang.RuntimeException: java.lang.ClassNotFoundException: Class org.apache.hadoop.fs.s3.S3FileSystem not found at org.apache.hadoop.conf.Configuration.getClass(Configuration.java:2074) at org.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:2578) at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:2591) 

Почему-то я подозреваю, что в распределении пряжи нет необходимых банок, чтобы читать S3, но я понятия не имею, где их получить. Любые указатели в этом направлении были бы весьма признательны.

По какой-то причине jar hadoop-aws-[version].jar который содержит реализацию для NativeS3FileSystem отсутствует в classpath к classpath hasoop по умолчанию в версии 2.6 и 2.7. Итак, попробуйте добавить его в hadoop-env.sh к classам, добавив следующую строку в hadoop-env.sh которая находится в $HADOOP_HOME/etc/hadoop/hadoop-env.sh :

 export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:$HADOOP_HOME/share/hadoop/tools/lib/* 

Предполагая, что вы используете Apache Hadoop 2.6 или 2.7

Кстати, вы можете проверить путь classа Hadoop, используя:

 bin/hadoop classpath 
 import os os.environ['PYSPARK_SUBMIT_ARGS'] = '--packages com.amazonaws:aws-java-sdk:1.10.34,org.apache.hadoop:hadoop-aws:2.6.0 pyspark-shell' import pyspark sc = pyspark.SparkContext("local[*]") from pyspark.sql import SQLContext sqlContext = SQLContext(sc) hadoopConf = sc._jsc.hadoopConfiguration() myAccessKey = input() mySecretKey = input() hadoopConf.set("fs.s3.impl", "org.apache.hadoop.fs.s3native.NativeS3FileSystem") hadoopConf.set("fs.s3.awsAccessKeyId", myAccessKey) hadoopConf.set("fs.s3.awsSecretAccessKey", mySecretKey) df = sqlContext.read.parquet("s3://myBucket/myKey") 

@ Ответ Ашрита работал для меня с одной модификацией: мне пришлось использовать $HADOOP_PREFIX а не $HADOOP_HOME при запуске v2.6 на Ubuntu. Возможно, это потому, что это звучит так: $HADOOP_HOME устаревает ?

export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:${HADOOP_PREFIX}/share/hadoop/tools/lib/*

Сказав это, я не работал для меня на своем Mac с v2.6, установленным через Homebrew. В этом случае я использую этот чрезвычайно неуклюжий экспорт:

export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:$(brew --prefix hadoop)/libexec/share/hadoop/tools/lib/*

Чтобы решить эту проблему, я пробовал все вышеперечисленное, что не удалось (для моей среды в любом случае).

Однако мне удалось заставить его работать, скопировав два упомянутых выше баночки из инструмента dir и в common / lib.

После этого он отлично справился.

Если вы используете HDP 2.x или выше, вы можете попробовать изменить следующее свойство в настройках конфигурации MapReduce2 в Ambari.

mapreduce.application.classpath

Добавьте к концу существующей строки следующее значение:

/usr/hdp/${hdp.version}/hadoop-mapreduce/*

Давайте будем гением компьютера.