Tag: dplyr

Эмулировать split () с dplyr group_by: вернуть список кадров данных

У меня есть большой dataset, который дросселирует split() в R. Я могу использовать dplyr group_by (что является предпочтительным способом в любом случае), но я не могу сохранить результирующий grouped_df как список фреймов данных, формат, необходимый для моих последовательных (мне нужно принуждать к SpatialDataFrames и тому подобное). рассмотрите образец набора данных: df = as.data.frame(cbind(c(“a”,”a”,”b”,”b”,”c”),c(1,2,3,4,5), c(2,3,4,2,2))) listDf […]

Передайте вектор имен переменных, чтобы упорядочить () в dplyr

Я хочу передать arrange() {dplyr} вектор имен переменных для сортировки. Обычно я просто ввожу нужные переменные, но я пытаюсь создать функцию, в которой переменные сортировки могут вводиться как параметр функции. df % arrange(var3, var4) # but none of these (below) work for passing a vector of variables vector_of_vars % arrange(vector_of_vars) df %>% arrange(get(vector_of_vars)) df %>% […]

dplyr :: select вызовы функции с помощью MASS :: select

Если я загружаю пакет MASS : library(MASS) затем загрузите попытку запуска dplyr::select , я получаю сообщение об ошибке: library(dplyr) mtcars %.% select(mpg) # Error in select(`__prev`, mpg) : unused argument (mpg) на library(dplyr) mtcars %.% select(mpg) # Error in select(`__prev`, mpg) : unused argument (mpg) Как я могу использовать dplyr::select с загруженным пакетом MASS ?

dplyr на data.table, я действительно использую data.table?

Если я использую синтаксис dplyr поверх данных datatable , могу ли я получить все преимущества скорости данных, используя синтаксис dplyr? Другими словами, я неправильно использую datatable, если я запрашиваю его с помощью синтаксиса dplyr? Или мне нужно использовать чистый синтаксис, чтобы использовать всю свою силу. Заранее благодарю за любой совет. Пример кода: library(data.table) library(dplyr) diamondsDT […]

Замените NA предыдущим или следующим значением по группам, используя dplyr

У меня есть кадр данных, который упорядочен по убыванию порядка даты. ps1 = data.frame(userID = c(21,21,21,22,22,22,23,23,23), color = c(NA,’blue’,’red’,’blue’,NA,NA,’red’,NA,’gold’), age = c(‘3yrs’,’2yrs’,NA,NA,’3yrs’,NA,NA,’4yrs’,NA), gender = c(‘F’,NA,’M’,NA,NA,’F’,’F’,NA,’F’) ) Я хочу приписать (заменить) значения NA прежними значениями и сгруппировать по идентификатору пользователя. Если первая строка идентификатора пользователя имеет NA, то замените ее следующей совокупностью значений для этой группы […]

Эффективный способ фильтрации одного фрейма данных по диапазонам в другом

Предположим, у меня есть кадр данных, содержащий кучу данных и столбец даты / времени, указывающий, когда была собрана каждая точка данных. У меня есть другой фрейм данных, в котором перечислены промежутки времени, где столбец «Старт» указывает дату / время начала каждого промежутка, а столбец «Конец» указывает дату / время окончания каждого интервала. Я создал фиктивный […]

Сумма в нескольких столбцах с dplyr

Мой вопрос включает в себя суммирование значений по нескольким столбцам фрейма данных и создание нового столбца, соответствующего этому суммированию с использованием dplyr . Записи данных в столбцах двоичные (0,1). Я имею в виду summarise_each mutate_each функции summarise_each или mutate_each dplyr . Ниже приведен минимальный пример кадра данных: library(dplyr) df=data.frame( x1=c(1,0,0,NA,0,1,1,NA,0,1), x2=c(1,1,NA,1,1,0,NA,NA,0,1), x3=c(0,1,0,1,1,0,NA,NA,0,1), x4=c(1,0,NA,1,0,0,NA,0,0,1), x5=c(1,1,NA,1,1,1,NA,1,0,1)) > […]

Использовать имена переменных в функциях dplyr

Я хочу использовать имена переменных как строки в функциях dplyr . См. Пример ниже: df <- data.frame( color = c("blue", "black", "blue", "blue", "black"), value = 1:5) filter(df, color == "blue") Он работает отлично, но я хотел бы ссылаться на color по строке, что-то вроде этого: var <- "color" filter(df, this_probably_should_be_a_function(var) == "blue"). Я был […]

case_when в мутантной трубе

Кажется, dplyr::case_when не ведет себя как другие команды в dplyr::mutate . Например: library(dplyr) case_when(mtcars$carb 2 ~ “high”) %>% table работает: . high low 15 17 Но положите case_when в цепочку case_when : mtcars %>% mutate(cg = case_when(carb 2 ~ “high”)) и вы получаете: Error: object ‘carb’ not found пока это прекрасно работает mtcars %>% mutate(cg […]

выборки строк подгрупп из dataframe с dplyr

Если я хочу случайно выбрать некоторые образцы из разных групп, я использую пакет plyr и код ниже require(plyr) sampleGroup<-function(df,size) { df[sample(nrow(df),size=size),] } iris.sample<-ddply(iris,.(Species),function(df) sampleGroup(df,10)) Здесь от каждого вида выбрано 10 образцов. Некоторые из моих dataframes очень большие, и мой вопрос в том, могу ли я использовать ту же функцию sampleGroup с пакетом dplyr? Или есть […]

Давайте будем гением компьютера.