Vai al contenuto principale
POK - Polimi Open Knowledge utilizza i cookie per raccogliere dati statistici sugli accessi al sito e per migliorare la tua esperienza utente. Proseguendo la navigazione del sito o cliccando su “Prosegui” acconsenti all’uso dei cookie.
Per maggiori informazioni o per sapere come disattivare i cookie, leggi:
x
Completato 0%
11 / 49
Aggregazione dei criteri
Visualizzare

Gli Effetti della Trasformazione dei Dati

Benvenuto/a! Spesso, prima di poter usare i dati in un algoritmo di IA, è necessario "pre-processarli".

Algoritmi diversi sono sensibili a scale di valori diverse. Ad esempio, un valore di 1000 (come il colesterolo) potrebbe "pesare" molto di più di un valore di 1 (come un esito binario) solo per la sua grandezza, alterando i risultati. Per questo, standardizziamo o normalizziamo i dati.

Abbiamo anche incluso un valore anomalo (outlier) per mostrarti come queste tecniche reagiscono a dati estremi.

Usa i controlli qui sotto per applicare diverse trasformazioni a un set di dati di glicemia e osserva come cambiano la loro distribuzione e le loro statistiche.

Controlli

Dataset Originale (Glicemia in mg/dL)

Scegli una Trasformazione

Dati Originali

Dati Trasformati

Rifletti:

1. Confronta Min-Max e Z-score: Con l'outlier presente, quale delle due tecniche ti sembra più 'robusta'? Osserva come la normalizzazione Min-Max comprime la maggior parte dei dati in una piccola parte del nuovo range a causa del valore anomalo.

2. Prova il Clipping: Ora seleziona la Standardizzazione (Z-score) e spunta la casella "Rimuovi Outliers". Cosa succede all'istogramma e alle statistiche? Questa tecnica (clipping) è utile per concentrare l'analisi sulla distribuzione principale dei dati, dopo aver identificato i valori anomali. Nota come la scala del grafico si effettua uno zoom sui dati non anomali.

Il pre-processing è un passo cruciale per garantire che i modelli di machine learning interpretino correttamente i dati medici.