Accedi e iscriviti
Dal Documento al Dato: Strumenti e Tecnologie per l’Analisi dei Dati nelle Digital Humanities
Dal Documento al Dato: Strumenti e Tecnologie per l’Analisi dei Dati nelle Digital Humanities
Descrizione del corso
Questo MOOC offre una panoramica sulle tecniche e sugli strumenti computazionali fondamentali per l'analisi dei dati nelle Digital Humanities. Il corso introduce metodologie per lavorare con dati testuali e culturali, dalla linguistica dei corpora alle tecnologie semantiche, fino alle più recenti applicazioni di Natural Language Processing. Attraverso videolezioni, materiali di approfondimento ed esercitazioni pratiche, i partecipanti acquisiranno competenze operative per raccogliere, organizzare, analizzare e arricchire dati linguistici e culturali, con particolare attenzione alle sfide specifiche del patrimonio culturale italiano e dei testi storici.
Carico di lavoro totale del corso: 22 ore
Questo MOOC è stato prodotto nell’ambito del progetto Edvance - Digital Education Hub per la Cultura Digitale Avanzata. Il progetto è finanziato dall’Unione europea - Next Generation EU, Componente 1, Investimento 3.4 “Didattica e competenze universitarie avanzate".
Risultati di Apprendimento Attesi
Al termine del corso, lo studente sarà in grado di:
- definire i concetti fondamentali della linguistica dei corpora (corpus, rappresentatività, bilanciamento) nel contesto dell'analisi testuale digitale;
- analizzare un corpus testuale utilizzando metriche statistiche (legge di Zipf, concordanze, collocazioni) e software dedicati;
- applicare tecniche di annotazione a corpora testuali per arricchirli con informazioni morfosintattiche e semantiche;
- spiegare l'architettura del Semantic Web e i principi dei Linked Open Data per la rappresentazione della conoscenza culturale;
- interpretare dati rappresentati in formato RDF e interrogare knowledge graph attraverso query SPARQL;
- utilizzare ontologie standard (FRBR, CIDOC-CRM) per modellare dati relativi al patrimonio culturale bibliotecario e museale;
- descrivere le principali applicazioni del Natural Language Processing nelle Digital Humanities e i loro ambiti di utilizzo;
- implementare pipeline di NLP base (OCR, Named Entity Recognition) per l'analisi di testi storici e letterari in italiano;
- valutare la qualità e l'adeguatezza di annotazioni linguistiche e metadati semantici in risorse digitali.
ESCO: data analytics ESCO: modelli di dati ESCO: linguistica computazionale ESCO: semantica ESCO: elaborazione del linguaggio naturale ESCO: pensare in modo analitico ESCO: utilizzare strumenti digitali per la collaborazione, la creazione di contenuti e la risoluzione di problemi
Prerequisiti
Conoscenza base dei fondamenti di informatica.
Attività
- Visione di 9 videolezioni (10 minuti ciascuna) suddivise in 3 Week tematiche
- Lettura di materiali di approfondimento selezionati per ogni Week
- Esercitazioni pratiche su analisi di corpora, interrogazione di knowledge graph e applicazioni NLP
- Completamento di 3 quiz settimanali di autovalutazione
- Completamento di 1 quiz finale di autovalutazione
Schema della sezione
-
-
Nella Week 1 esploreremo i fondamenti della linguistica dei corpora, dal concetto di corpus elettronico alle tecniche di analisi testuale. Analizzeremo la legge di Zipf, le concordanze e le collocazioni, e scopriremo come annotare e arricchire un corpus con informazioni linguistiche strutturate.
-
Nella Week 2 ci addentreremo nel mondo del Semantic Web e dei Linked Open Data. Esploreremo il modello RDF, le ontologie e i principali knowledge graph (Wikidata, DBpedia), con particolare attenzione alle applicazioni per biblioteche e musei come FRBR e CIDOC-CRM.
-
Nella Week 3 scopriremo le applicazioni del Natural Language Processing alla ricerca umanistica. Dai Large Language Models alle tecniche di Knowledge Extraction, fino alle sfide specifiche dell'italiano storico, analizzando risorse linguistiche e approcci metodologici specifici per gli archivi storici italiani.
-
-
-
Trascrizioni video Cartella
-
Valutazione
Il corso prevede l’erogazione di un Open Badge, ottenibile sulla base del punteggio raggiunto rispondendo ai quiz valutati. Hai tentativi illimitati di risposta per ciascun quiz ma dovrai attendere 15 minuti. Il corso si considera completato in modo adeguato all'ottenimento del certificato se raggiungerai almeno il 60% del punteggio complessivo in ciascuno dei quiz valutati. Il punteggio massimo ottenibile in ciascun quiz è indicato all’inizio del quiz stesso. Puoi vedere il punteggio che hai ottenuto nel quiz in corrispondenza dell’ultimo tentativo fatto oppure nella pagina “Valutazione”.
Attestato
Il corso prevede l’erogazione di un Open Badge rispondendo correttamente ad almeno il 60% delle domande in ciascuno dei quiz valutati e rispondendo al questionario finale.
Una volta completate le attività richieste potrai accedere a “Ottieni l’Open Badge”, avviando il rilascio del badge. Le indicazioni per accedere al badge saranno inviate al tuo indirizzo e-mail.
L’Open Badge non è un certificato ufficiale e non dà diritto a crediti universitari, a voti o a diplomi.
Accesso al corso e disponibilità dei materiali
Il corso è erogato in modalità online e gratuito.
Docenti del corso

Paolo Sernani
Docente
Professore Associato presso il Dipartimento di Giurisprudenza dell’Università di Macerata. Ha conseguito il dottorato di ricerca in Ingegneria dell’Informazione presso l’Università Politecnica delle Marche nel marzo 2016, discutendo una tesi dal titolo “Design and virtualization of intelligent systems for the management of assistive environments”, dedicata all’applicazione dei sistemi multi-agente alla gestione di ambienti intelligenti assistivi. I suoi principali ambiti di ricerca includono i sistemi esperti, il deep learning e le tecniche ibride.
Contatti
Per qualsiasi informazioni sui corsi o per problemi tecnici scrivi a pok@polimi.it o consulta la pagina delle FAQ.