Tag: r

Непосредственное создание фиктивной переменной, заданной в разреженной матрице в R

Предположим, у вас есть кадр данных с большим количеством столбцов (1000 факторов, каждый из которых имеет 15 уровней). Вы хотите создать dataset с переменными переменной, но поскольку он будет слишком скудным, вы хотели бы сохранить манекены в разреженном формате матрицы. Мой dataset довольно большой, и чем меньше шагов, тем лучше для меня. Я знаю, как […]

Создание участка с разбивкой по областям с использованием ggplot2

Я использую следующую структуру данных, чтобы попытаться создать диаграмму с разбивкой по областям: df <- data.frame(PopDen = c( 0.002279892, 0.002885407, 0.004291351, 0.002457731, 0.006631572, 0.007578882, 0.004465446, 0.007436628, 0.009001456, 0.006951703, 0.003602076, 0.005695585, 0.005819783, 0.007412274, 0.004931548, 0.006257411, 0.008635908, 0.005438558, 0.002251421,0.006438558), DomArea = c( 253500, 135270, 197180, 131590, 142210, 166920, 125640, 184600, 139940, 126280, 127760, 190940, 133440, 143510, 117260, […]

ggplot2: Как указать несколько цветов заливки для точек, которые связаны линиями разных цветов

Я новичок в ggplot2 . Я хотел бы создать линейный график, который имеет точки на них, где точки заполнены разными цветами, чем линии (см. График ниже). Предположим, что dataset, с которыми я работаю, приведен ниже: set.seed(100) data<-data.frame(dv=c(rnorm(30), rnorm(30, mean=1), rnorm(30, mean=2)), iv=rep(1:30, 3), group=rep(letters[1:3], each=30)) Я попробовал следующий код: p<-ggplot(data, aes(x=iv, y=dv, group=group, pch=group)) + […]

Вычислить максимальный размер строки

Я хотел бы создать новый столбец, который равен максимальному значению всех столбцов этой строки. Вот пример: library(data.table) data <- data.table(head(iris)) data[ , Species := NULL] data Sepal.Length Sepal.Width Petal.Length Petal.Width 1: 5.1 3.5 1.4 0.2 2: 4.9 3.0 1.4 0.2 3: 4.7 3.2 1.3 0.2 4: 4.6 3.1 1.5 0.2 5: 5.0 3.6 1.4 0.2 […]

R / regex with stringi / ICU: почему символ «+» считается символом non – ?

Я пытаюсь удалить символы не алфавита из вектора строк. Я думал, что группа [:punct:] будет охватывать ее, но, похоже, она игнорирует + . Это относится к другой группе персонажей? library(stringi) string1 <- c( "this is a test" ,"this, is also a test" ,"this is the final. test" ,"this is the final + test!" ) string1 […]

R – gsub заменяет обратную косую черту

Я хотел бы использовать gsub для замены каждого появления обратной косой черты в строке с помощью двух обратных косых черт. В настоящее время я пробовал gsub(“\\\\”, “\\”, x) . Однако это не работает. Однако, если я заменю выражение вместо вместо каждого обратного слэша на «a», он отлично работает. > gsub(“\\\\”, “\\”, “\\”) [1] “” > […]

Ошибка «Встроенный nul in string» при импорте csv с fread

У меня есть большой файл (3.5G), который я пытаюсь импортировать, используя data.table::fread . Он был первоначально создан из файла rpt, который был открыт как текст и сохранен как CSV. Это отлично работает с меньшими файлами (одного и того же типа данных – одни и те же столбцы и все. Это просто для более длинных таймфреймов […]

ggplot2, ось не отображается после использования темы (axis.line = element_line ())

Я пытаюсь сделать этот следующий график, используя пакет ggplot2 , но почему-то ось не появится. тики есть, а не ось. Я использовал theme(axis.line=element_line()) , но это не сработало. Вот мой код: library(ggplot2) ggplot(data = soepl_randsub, aes(x = year, y =satisf_org, group = id)) + geom_point() + geom_line() +ylab(“Current Life Satisfaction”) +theme_bw() + theme(plot.background = element_blank(), […]

Альтернатива Python xrange для R ИЛИ как петляться над большим набором данных lazilly?

Следующий пример основан на обсуждении использования expand.grid с большими данными. Как вы видите, это заканчивается ошибкой. Я предполагаю, что это связано с возможными комбинациями, которые соответствуют указанным страницам 68,7 миллиарда: > v1 v2 v3 v4 v5 v6 v7 v8 v9 v10 v11 v12 expand.grid(v1, v2, v3, v4, v5, v6, v7, v8, v9, v10, v11, v12) […]

двойные точки в ggplot

Я не могу найти документацию для двойных точек вокруг плотности set.seed(1234) df <- data.frame(cond = factor(rep(c("A","B"), each=200)), rating = c(rnorm(200),rnorm(200, mean=.8))) print(head(df)) print(ggplot(df, aes(x=rating)) + geom_histogram(aes(y=..density..), # Histogram with density instead of count on y-axis binwidth=.5, colour="black", fill="white") + geom_density(alpha=.2, fill="#FF6666") + geom_vline(aes(xintercept=mean(rating, na.rm=T)), # Ignore NA values for mean color="red", linetype="dashed", size=1)) Вы знаете, […]

Давайте будем гением компьютера.