Tag: apache spark

Как импортировать несколько файлов csv в одной загрузке?

У меня есть определенная схема для загрузки 10 csv-файлов в папку. Есть ли способ автоматически загружать таблицы, используя Spark SQL. Я знаю, что это может быть выполнено с использованием отдельного файла данных для каждого файла [приведенного ниже], но может ли он быть автоматизирован с помощью одной команды, а не указывать файл, я могу указать папку? […]

Как изменить память на узел для искрового работника Apache

Я настраиваю кластер Apache Spark. Когда я запускаю кластер с 1 ведущим и 3 подчиненными, я вижу это на странице главного монитора: Memory 2.0 GB (512.0 MB Used) 2.0 GB (512.0 MB Used) 6.0 GB (512.0 MB Used) Я хочу увеличить используемую память для рабочих, но я не смог найти нужную конфигурацию для этого. Я […]

Как найти размер вспышки RDD / Dataframe?

Я знаю, как найти размер файла в scala.But, как найти размер RDD / dataframe в искрах? Scala: object Main extends App { val file = new java.io.File(“hdfs://localhost:9000/samplefile.txt”).toString() println(file.length) } Spark: val distFile = sc.textFile(file) println(distFile.length) но если я обработаю его, не получая размер файла. Как найти размер RDD?

Почему PySpark не может найти py4j.java_gateway?

Я установил Spark, запустил сборку sbt и без проблем смог открыть bin / pyspark. Тем не менее, у меня возникают проблемы с загрузкой модуля pyspark в ipython. Я получаю следующую ошибку: In [1]: import pyspark ————————————————————————— ImportError Traceback (most recent call last) in () —-> 1 import pyspark /usr/local/spark/python/pyspark/__init__.py in () 61 62 from pyspark.conf […]

Почему искровая shell не работает с NullPointerException?

Я пытаюсь выполнить spark-shell в Windows 10, но я постоянно получаю эту ошибку каждый раз, когда я ее запускаю. Я использовал как последнюю версию, так и версию spark-1.5.0-bin-hadoop2.4. 15/09/22 18:46:24 WARN Connection: BoneCP specified but not present in CLASSPATH (or one of dependencies) 15/09/22 18:46:24 WARN Connection: BoneCP specified but not present in CLASSPATH (or […]

Как предотвратить java.lang.OutOfMemoryError: пространство PermGen при компиляции Scala?

Я заметил странное поведение моего компилятора scala. Иногда он выдает OutOfMemoryError при компиляции classа. Вот сообщение об ошибке: [info] Compiling 1 Scala source to /Users/gruetter/Workspaces/scala/helloscala/target/scala-2.9.0/test-classes… java.lang.OutOfMemoryError: PermGen space Error during sbt execution: java.lang.OutOfMemoryError: PermGen space Это происходит только раз в то время, и ошибка обычно не возникает при последующем прогоне компиляции. Я использую Scala 2.9.0 […]

Как распечатать содержимое RDD?

Я пытаюсь распечатать содержимое коллекции на консоли Spark. У меня есть тип: linesWithSessionId: org.apache.spark.rdd.RDD[String] = FilteredRDD[3] И я использую команду: scala> linesWithSessionId.map(line => println(line)) Но это напечатано: res1: org.apache.spark.rdd.RDD [Unit] = MappedRDD [4] на карте по адресу: 19 Как я могу написать RDD для консоли или сохранить его на диск, чтобы я мог просматривать его […]

«Ошибка: тип несоответствия» в Spark с теми же найденными и требуемыми типами данных

Я использую искровую оболочку для запуска моего кода. В моем коде я определил функцию, и я вызываю эту функцию с ее параметрами. Проблема в том, что я получаю следующую ошибку при вызове функции. error: type mismatch; found : org.apache.spark.graphx.Graph[VertexProperty(in class $iwC)(in class $iwC)(in class $iwC)(in class $iwC),String] required: org.apache.spark.graphx.Graph[VertexProperty(in class $iwC)(in class $iwC)(in class $iwC)(in […]

Анализ многострочных записей в Scala

Вот мой RDD [String] M1 module1 PIP a ZA PIP b ZB PIP c Y n4 M2 module2 PIP a I n4 PIP b OD PIP c O n5 и так далее. В принципе, мне нужен RDD ключа (содержащий второе слово в строке 1) и значения последующих строк PIP, которые можно повторить. Я пробовал следующее […]

Spark UDAF с параметром ArrayType в качестве проблем с производительностью bufferSchema

Я работаю над UDAF, который возвращает массив элементов. Вход для каждого обновления является кортежем индекса и значения. То, что делает UDAF, состоит в том, чтобы суммировать все значения под одним и тем же индексом. Пример: Для ввода (индекс, значение): (2,1), (3,1), (2,3) должен возвращаться (0,0,4,1, …, 0) Логика отлично работает, но у меня проблема с […]

Давайте будем гением компьютера.