Introduzione alla visualizzazione dei dati R

In questo tutorial parliamo della visualizzazione dei dati tramite diagrammi e grafici nel linguaggio R tramite ggplot2.

Il pacchetto ggplot2 ti permette di rappresentare graficamente i dati e costruire grafici anche complessi a partire da componenti semplici e intuitivi. Può generare una vasta gamma di tipi di grafici.

Immaginiamo di avere un dataset chiamato "dati.csv" che vogliamo visualizzare.

Il primo passo è caricare questi dati in R tramite la funzione read.csv

dati <- read.csv("dati.csv")

In questo caso, utilizziamo un dataset incorporato in R, come "mtcars".

Questo dataset contiene dati sui consumi di diverse automobili (in miglia per gallone, mpg) e 10 aspetti delle prestazioni automobilistiche.

dati <- mtcars

Prima di visualizzare i dati, diamo un'occhiata a cosa contengono.

Usiamo la funzione head(dati) per vedere le prime righe e summary(dati) per ottenere un riepilogo statistico.

head(dati)
summary(dati)

In particolar modo la funzione head() ci permette di capire quali sono i nomi dei campi del dataset.

i nomi dei campi del dataset

Uno dei pacchetti più popolari per la visualizzazione grafica dei dati in R è il pacchetto "ggplot2".

Prima di usarlo, però, dobbiamo installarlo nell'ambiente operativo di R.

install.packages("ggplot2")

Una volta installato, possiamo caricarlo in memoria e utilizzarlo.

library(ggplot2)

Supponiamo di voler visualizzare la distribuzione di una variabile "cyl" (cilindri) presente nel nostro dataset.

Possiamo farlo utilizzando la funzione ggplot()

ggplot(dati, aes(x=cyl)) +
geom_bar()

La funzione genera un grafico a barre che conta quanti cilindri hanno le automobili presenti nel dataset.

esempio di diagramma a barre

Nel grafico emerge che nel dataset ci sono più occorrenze di automobili con 8 cilindri.

Se vogliamo esplorare la relazione tra due variabili numeriche, ad esempio "cyl" e "hp", possiamo usare uno scatter plot.

ggplot(dati, aes(x=cyl, y=hp)) +
geom_point()

Questo comando disegna un punto per ogni osservazione nel dataset, permettendoci di osservare pattern o correlazioni tra le due variabili.

esempio di scatter plot

Il modulo "ggplot2" offre ampia flessibilità nella personalizzazione dei grafici.

Ad esempio, possiamo aggiungere titoli e modificare i colori:

ggplot(dati, aes(x=cyl, y=hp)) +
geom_point(color="red") +
ggtitle("Report Cyl / Hp") +
xlab("Cyl") +
ylab("Hp")

Ora il diagramma ha i punti di colore rosso e sono state aggiunte le voci sugli assi e il titolo del grafico.

la personalizzazione del grafico

 

Facciamo un esempio pratico.

Supponiamo di voler esplorare la relazione tra il consumo di carburante ("mpg") e la potenza del motore ("hp") delle automobili, e visualizzare questa relazione utilizzando uno scatter plot.

Utilizziamo la libreria ggplot2 per creare uno scatter plot che metta in relazione "mpg" e "hp".

ggplot(mtcars, aes(x=hp, y=mpg)) +
geom_point() +
theme_minimal() +
ggtitle("Relazione tra Potenza del Motore e Consumo di Carburante") +
xlab("Potenza del Motore (hp)") +
ylab("Consumo di Carburante (mpg)")

Questo codice produce uno scatter plot dove ogni punto rappresenta un'automobile nel dataset `mtcars`.

L'asse x mostra la potenza del motore (`hp`), mentre l'asse y mostra il consumo di carburante (`mpg`).

la relazione tra potenza del motore e consumo di carburante

Abbiamo anche utilizzato theme_minimal() per rendere il grafico più pulito e leggibile, e abbiamo aggiunto un titolo e modificato le etichette degli assi per rendere il grafico più informativo.

L'interpretazione del grafico. Guardando lo scatter plot, possiamo cercare di identificare se esiste una relazione tra la potenza del motore e il consumo di carburante. In generale, si nota una tendenza negativa perché le auto con motori più potenti tendono a consumare più carburante.

Infine, dopo aver creato un grafico che ci soddisfa, possiamo salvarlo in vari formati, come PNG o PDF, utilizzando la funzione "ggsave":

ggsave("mio_grafico.png")

Possiamo anche indicare le dimensioni del grafico da salvare.

ggsave("mio_grafico.png", width = 10, height = 6)

Questo comando salva il grafico come file PNG nelle dimensioni specificate.

Naturalmente, questo è solo un punto di partenza, il pacchetto "ggplot2" offre molte altre funzionalità, tipi di grafici e tecniche di personalizzazione che puoi esplorare.

Questa guida introduce solo le basi della visualizzazione dei dati nel linguaggio R.




Se qualcosa non ti è chiaro, scrivi la tua domanda nei commenti.




FacebookTwitterLinkedinLinkedin