Tipi e strutture di dati in R
Il linguaggio di programmazione R comprende diversi tipi e strutture di dati. Sono fondamentali per ogni analisi dati.
La loro corretta comprensione ed utilizzo aprono la porta a una vasta gamma di analisi statistiche e rappresentazioni grafiche.
Qual è la differenza tra tipi e strutture di dati? La differenza fondamentale è che i tipi di dati si riferiscono alla natura individuale di un singolo elemento (come numerico, stringa, booleano), mentre le strutture di dati descrivono l'organizzazione e la relazione tra più elementi (come vettori, liste, matrici). I tipi di dati e le strutture sono strettamente legate tra loro perché è importante scegliere il tipo di dato appropriato per la natura dei dati.
Tipi di dati
I principali tipi di dati utilizzati nel linguaggio R sono i seguenti:
- Valori numerici
Sono usati per rappresentare i numeri reali.
x <- 42.5
- Integer
Il tipo dati "integer" rappresenta i numeri interi. Dove "L" indica un numero intero.
x <- 42L
- Caratteri
Questo tipo rappresenta le stringhe di testo.x <- "Hello, R!"
- Logici
E' un tipo di dato utile per memorizzare i valori booleani (TRUE, FALSE)x <- TRUE
Strutture di dati
Le principali strutture di dati in R sono le seguenti:
- Vettori
Un vettore è una sequenza di elementi dello stesso tipo. E' l'ideale per serie di misurazioni uniformi. Ad esempio, un vettore di numeri può contenere le temperature di un luogo.temperature <- c(22, 23, 21, 20)
[1] 22 23 21 20
- Fattori
- Liste
Una lista è una collezione di elementi che, a differenza dei vettori, può contenere anche tipi diversi. Le liste sono strumenti potenti per raggruppare dati eterogenei. Ad esempio, questa lista memorizza i dati di uno studente, il nome, il voto, ecc.
studente <- list(nome="Luca", voto=27, superato=TRUE)
$nome
[1] "Luca"
$voto
[1]27
$superato
[1] TRUE - Fattori
- Matrici
Le matrici sono strutture in cui i dati sono organizzati in una tabella bidimensionale di elementi dello stesso tipo. E' perfetta per dati che hanno una relazione bidimensionale.matrice_punti <- matrix(1:6, nrow=2)
[,1] [,2] [,3]
[1,] 1 3 5
[2,] 2 4 6 - Fattori
- Data frames
Simili alle matrici ma possono contenere colonne di tipi diversi. I data frames sono ideali per gestire i dati tabulari. E' molto utile imparare a manipolarli con funzioni come dplyr per filtrare, riassumere e trasformare i dati. Ad esempio, un data frame può memorizzare una tabella in cui la prima colonna è il nome dello studente e la seconda colonna è il voto che ha preso a un esame.
dati_studenti <- data.frame(nome=c("Luca", "Marta"), voto=c(27, 30))
nome voto
1 Luca 27
2 Marta 30 - Fattori
I fattori in R sono strutture di dati utilizzate per rappresentare dati categorici, come gruppi o livelli. Permettono di gestire e analizzare efficacemente questi dati, categorizzandoli e ordinandoli secondo livelli definiti. Ad esempio, questo comando assegna questo fattore alla variabile "genere" creando una struttura di dati che non solo memorizza le informazioni originali ("M", "F", "F"), ma le associa anche a un insieme specifico di categorie, rendendo più agevoli analisi e manipolazioni future di questi dati categorici.genere <- factor(c("M", "F", "F"), levels=c("M", "F"))
[1] M F F
Levels: M F