Разделение в искры при чтении из РСУБД через JDBC

Я запускаю искру в режиме кластера и считываю данные из РСУБД через JDBC.

В соответствии с документами Spark эти параметры разбиения описывают, как разделить таблицу при параллельном чтении нескольких сотрудников:

partitionColumn, lowerBound, upperBound, numPartitions 

Это необязательные параметры.

Что произойдет, если я не укажу их:

  • Только один рабочий прочитал все данные?
  • Если он все еще читает параллельно, как он разделяет данные?

Если вы не укажете ни { partitionColumn , lowerBound , upperBound , numPartitions }, ни { predicates }, Spark будет использовать один исполнитель и создать один непустой раздел. Все данные будут обрабатываться с использованием одной транзакции, и чтение не будет распространяться и не распараллеливаться.

  • Как определить схему для настраиваемого типа в Spark SQL?
  • Spark Не удалось найти драйвер JDBC
  • Spark SQL - загрузка данных с помощью JDBC с использованием оператора SQL, а не имя таблицы
  • Как развернуть Spark DataFrame?
  • Запрос Spark SQL DataFrame со сложными типами
  • Ошибка кодирования при попытке сопоставить строку dataframe с обновленной строкой
  • Каковы возможные причины для получения TimeoutException: фьючерсы, истекающие после при работе с Spark
  • Как сохранить свечу DataFrame как csv на диске?
  • Разбить строку строки данных Spark Dataframe на несколько столбцов
  • SparkSQL: как работать с нулевыми значениями в пользовательской функции?
  • Как разбить фрейм данных на dataframes с одинаковыми значениями столбцов?
  • Давайте будем гением компьютера.