Datastream

Квартет Энскомба

Квартет Энскомба — четыре набора числовых данных, у которых простые статистические свойства идентичны, но их графики существенно отличаются. Каждый набор состоит из 11 пар чисел. Квартет был составлен в 1973 году английским математиком Ф. Дж. Энскомбом для иллюстрации важности применения графиков для статистического анализа, и влияния выбросов значений на свойства всего набора данных.

 

Квартет Энскомба
I II III IV
x y x y x y x y
10,0 8,04 10,0 9,14 10,0 7,46 8,0 6,58
8,0 6,95 8,0 8,14 8,0 6,77 8,0 5,76
13,0 7,58 13,0 8,74 13,0 12,74 8,0 7,71
9,0 8,81 9,0 8,77 9,0 7,11 8,0 8,84
11,0 8,33 11,0 9,26 11,0 7,81 8,0 8,47
14,0 9,96 14,0 8,10 14,0 8,84 8,0 7,04
6,0 7,24 6,0 6,13 6,0 6,08 8,0 5,25
4,0 4,26 4,0 3,10 4,0 5,39 19,0 12,50
12,0 10,84 12,0 9,13 12,0 8,15 8,0 5,56
7,0 4,82 7,0 7,26 7,0 6,42 8,0 7,91
5,0 5,68 5,0 4,74 5,0 5,73 8,0 6,89

Эти данные состоят из четырёх пар x и y с практически равным средним значением (M[xi]=9, M[yi]=7.5) и дисперсией между соответствующими элементами пар (D[xi]=11, D[yi]≈4.13) , а также равным коэффициентом корреляции (cor(xi,yi)=0.816). Модель линейной регрессии, построенная методом МНК для всех вариантов описывается уравнением y=3.00+0.500x .

Среднее значение переменной x – 9.0
Дисперсия переменной x – 10,0
Среднее значение переменной y – 7,5
Дисперсия переменной y – 3,75
Корреляция между переменными x и y – 0,816
Прямая линейной регрессии – y = 3 + 0,5x
Коэффициент детерминации линейной регрессии – 0,67

 

Графики представлены на рисунке ниже , из которого видно, насколько могут различаться данные, описываемые внешне статистически одинаково.

Квартет Анскомбе

С помощью этого кода можно загрузить и визуализировать “Квартет Энскомба” в Rstudio.

require(stats); require(graphics)
asc <- anscombe
asc

##– now some “magic” to do the 4 regressions in a loop:
ff <- y ~ x
mods <- setNames(as.list(1:4), paste0(“lm”, 1:4))
for(i in 1:4) {
ff[2:3] <- lapply(paste0(c(“y”,”x”), i), as.name)
## or ff[[2]] <- as.name(paste0(“y”, i))
## ff[[3]] <- as.name(paste0(“x”, i))
mods[[i]] <- lmi <- lm(ff, data = anscombe)
print(anova(lmi))
}

## See how close they are (numerically!)
sapply(mods, coef)
lapply(mods, function(fm) coef(summary(fm)))

## Now, do what you should have done in the first place: PLOTS
op <- par(mfrow = c(2, 2), mar = 0.1+c(4,4,1,1), oma = c(0, 0, 2, 0))
for(i in 1:4) {
ff[2:3] <- lapply(paste0(c(“y”,”x”), i), as.name)
plot(ff, data = anscombe, col = “red”, pch = 21, bg = “orange”, cex = 1.2,
xlim = c(3, 19), ylim = c(3, 13))
abline(mods[[i]], col = “blue”)
}
mtext(“Anscombe’s 4 Regression data sets”, outer = TRUE, cex = 1.5)

Ссылки

Нажав кнопку "Принять и продолжить", вы соглашаетесь с условиями
DataStream использует файлы cookie для обеспечения работоспособности сервиса, улучшения навигации, возможности связаться с командой поддержки, для повышения удобства работы с сервисом, а также для маркетинговых активностей DataStream.
Принять и продолжить
We use cookies to help give you the best experience on our website.
By continuing without changing your cookie settings, we assume you agree to this. Please read our
Ok, I Agree