Квартет Энскомба — четыре набора числовых данных, у которых простые статистические свойства идентичны, но их графики существенно отличаются. Каждый набор состоит из 11 пар чисел. Квартет был составлен в 1973 году английским математиком Ф. Дж. Энскомбом для иллюстрации важности применения графиков для статистического анализа, и влияния выбросов значений на свойства всего набора данных.
I | II | III | IV | ||||
---|---|---|---|---|---|---|---|
x | y | x | y | x | y | x | y |
10,0 | 8,04 | 10,0 | 9,14 | 10,0 | 7,46 | 8,0 | 6,58 |
8,0 | 6,95 | 8,0 | 8,14 | 8,0 | 6,77 | 8,0 | 5,76 |
13,0 | 7,58 | 13,0 | 8,74 | 13,0 | 12,74 | 8,0 | 7,71 |
9,0 | 8,81 | 9,0 | 8,77 | 9,0 | 7,11 | 8,0 | 8,84 |
11,0 | 8,33 | 11,0 | 9,26 | 11,0 | 7,81 | 8,0 | 8,47 |
14,0 | 9,96 | 14,0 | 8,10 | 14,0 | 8,84 | 8,0 | 7,04 |
6,0 | 7,24 | 6,0 | 6,13 | 6,0 | 6,08 | 8,0 | 5,25 |
4,0 | 4,26 | 4,0 | 3,10 | 4,0 | 5,39 | 19,0 | 12,50 |
12,0 | 10,84 | 12,0 | 9,13 | 12,0 | 8,15 | 8,0 | 5,56 |
7,0 | 4,82 | 7,0 | 7,26 | 7,0 | 6,42 | 8,0 | 7,91 |
5,0 | 5,68 | 5,0 | 4,74 | 5,0 | 5,73 | 8,0 | 6,89 |
Эти данные состоят из четырёх пар x и y с практически равным средним значением (M[xi]=9, M[yi]=7.5) и дисперсией между соответствующими элементами пар (D[xi]=11, D[yi]≈4.13) , а также равным коэффициентом корреляции (cor(xi,yi)=0.816). Модель линейной регрессии, построенная методом МНК для всех вариантов описывается уравнением y=3.00+0.500x .
Среднее значение переменной x – 9.0
Дисперсия переменной x – 10,0
Среднее значение переменной y – 7,5
Дисперсия переменной y – 3,75
Корреляция между переменными x и y – 0,816
Прямая линейной регрессии – y = 3 + 0,5x
Коэффициент детерминации линейной регрессии – 0,67
Графики представлены на рисунке ниже , из которого видно, насколько могут различаться данные, описываемые внешне статистически одинаково.

С помощью этого кода можно загрузить и визуализировать “Квартет Энскомба” в Rstudio.
require(stats); require(graphics)
asc <- anscombe
asc##– now some “magic” to do the 4 regressions in a loop:
ff <- y ~ x
mods <- setNames(as.list(1:4), paste0(“lm”, 1:4))
for(i in 1:4) {
ff[2:3] <- lapply(paste0(c(“y”,”x”), i), as.name)
## or ff[[2]] <- as.name(paste0(“y”, i))
## ff[[3]] <- as.name(paste0(“x”, i))
mods[[i]] <- lmi <- lm(ff, data = anscombe)
print(anova(lmi))
}## See how close they are (numerically!)
sapply(mods, coef)
lapply(mods, function(fm) coef(summary(fm)))## Now, do what you should have done in the first place: PLOTS
op <- par(mfrow = c(2, 2), mar = 0.1+c(4,4,1,1), oma = c(0, 0, 2, 0))
for(i in 1:4) {
ff[2:3] <- lapply(paste0(c(“y”,”x”), i), as.name)
plot(ff, data = anscombe, col = “red”, pch = 21, bg = “orange”, cex = 1.2,
xlim = c(3, 19), ylim = c(3, 13))
abline(mods[[i]], col = “blue”)
}
mtext(“Anscombe’s 4 Regression data sets”, outer = TRUE, cex = 1.5)
Ссылки
- F.J. Anscombe, “Graphs in Statistical Analysis, “ American Statistician, 27 (February 1973), 17-21.
- Tufte, Edward R. (2001). The Visual Display of Quantitative Information, 2nd Edition, Cheshire, CT: Graphics Press. ISBN 0961392142
- Sangit Chatterjee and Aykut Firat (2007). «Generating Data with Identical Statistics but Dissimilar Graphics: A Follow up to the Anscombe Dataset», American Statistician, 61(3), 248—254. doi:10.1198/000313007X220057