Wstęp

Cel prezentacji: demonstracja wykorzystania pakietu ggRandomForests do wizualizacji lasów losowych.

Uwaga: Pakiet ggRandomForests służy do wizualizacji lasów losowych stworzonych za pomocą pakietu randomForestSRC. Choć wiele wykresów tworzonych przez nowy pakiet można otrzymać przy pomocy randomForestSRC, to korzystanie z ggRandomForests daje trzy (?) udogodnienia:

Przypomnienie: lasy losowe to modyfikacja baggingu, czyli agregacji wyniku zbioru drzew dla ustalonej liczby próbek bootstrapowych, polegająca na “uniezależnieniu” od siebie drzew z tego zbioru poprzez rozpatrywanie przy każdym podziale drzewa jednynie \(m\leq p\) zmiennych wylosowanych spośród \(p\) wszystkich zmiennych.

Plan: prześledzimy przykład dla regresji zaprezentowany przez autora pakietu w jego vignette (Ehrling, 2015), bardziej szczegółowo omawiając miary prezentowane przez poszczególne wykresy i idee za nimi idące.

Dane

Będziemy korzystać ze zbioru danych “Boston” dotyczącego mieszkań w obszarach Bostonu, dostępnego m.in. w pakiecie MASS. Naszym celem jest stwierdzenie co i w jaki sposób wpływa na medianę ceny mieszkań w obszarze, przy czym zbiór zawiera następujące zmienne:

W celu stwierdzenia, które zmienne powinny wyjść “istotne” w naszej analizie rysujemy wykres każdej zmiennej ciągłej względem medv czyli tej, którą chcemy prognozować.

data(Boston, package="MASS")
Boston$chas <- as.logical(Boston$chas)
dta <- melt(Boston, id.vars=c("medv","chas"))
ggplot(dta, aes(x=medv, y=value, color=chas))+ geom_point(alpha=.4)+ geom_rug(data=dta %>% filter(is.na(value)))+ labs(y="", x="Median value of hoems ($1000s)")+ facet_wrap(~variable, scales="free_y", ncol=3)