Politecnico di Milano Scuola di Ingegneria Industriale e dell’Informazione Corso di Laurea Magistrale in Ingegneria Matematica Un modello multistato bayesiano per l’analisi dei tempi di permanenza in università degli allievi ingegneri del Politecnico di Milano Relatore: Dott.ssa Ilenia EPIFANI Correlatore: Prof. Maurizio VERRI Tesi di Laurea Magistrale di: Elisabetta ROSSI Matr. 786970 Anno Accademico 2014-2015 Sommario In questa tesi ci siamo occupati dello studio dei tempi di permanenza al Poli- tecnicodiMilanodegliimmatricolatipurineglianniaccademicitrail2001/02 eil2013/14,sullabasedeidatifornitidall’AreaServiziICT(ASICT),aggior- nati al 19/06/2015. L’analisi esplorativa dei dati ha riguardato l’intero cam- pione, invece per l’analisi inferenziale abbiamo escluso le ultime due coorti. Abbiamo implementato un modello gerarchico multistato bayesiano a rischi proporzionali di Cox, con dati censurati a destra e funzione di rischio baseline costante a tratti: la gerarchia è dovuta all’introduzione di effetti aleatori che permettono di descrivere l’eterogeneità dei tassi di rischio associati a diversi corsi di studio e anni di immatricolazione. In breve, il modello considera, per ogni immatricolato al Politecnico negli AA considerati, i seguenti pos- sibili stati: attivo, laurea e abbandono. Lo stato di attivo rappresenta la condizione iniziale di ogni studente, mentre laurea e abbandono sono model- lati come stati assorbenti del sistema. Secondo la terminologia propria della survival analysis, laurea e abbandono sono gli eventi di interesse e il tempo che intercorre tra la prima iscrizione all’università e l’occorrenza di uno dei due eventi è la durata o tempo di permanenza in ateneo. In particolare, la permanenza degli studenti ancora attivi è un tempo censurato a destra. Nel modello sono stati inglobati sia fattori di rischio locali, quali sesso, rendi- mento universitario al primo anno e loro interazione, sia globali, quali tipo di test di ammissione e ordinamento in vigore nell’anno di immatricolazione. Tali fattori sono invarianti nel tempo, per cui i tassi di rischio di studenti con caratteristiche diverse sono fra loro proporzionali e le relative curve di sopravvivenza non hanno intersezioni. L’analisi statistica segue un’imposta- zione bayesiana, secondo cui i parametri incogniti e gli effetti aleatori sono variabili casuali con una legge assegnata a priori. In particolare, abbiamo scelto per tutti i parametri incogniti prior diffuse, e quindi non informative, ma proprie. Abbiamo testato il modello soltanto su un campione casuale di 2370 unità dei 47038 immatricolati (corrispondenti al 5%), che mantenesse inalterata la composizione di studenti attivi, laureati, abbandoni e imma- tricolati per AA. Le procedure di stima basate sul campione ridotto hanno impiegato circa 55 ore su una macchina con CPU Intel Core i7 (3930K) a 3.20 GHz, 6 core e 12 thread, con 16 GB di RAM. I risultati ottenuti possono essere sintetizzati come segue. Sesso e rendimento universitario sono i fattori che maggiormente incidono sui rischi di laurea e abbandono: i maschi non solo hanno la tendenza a conseguire il titolo in tempi più lunghi rispetto alle femmine, ma anche a ritirarsi più tardi, mentre un buon profitto scolastico ii incentiva il raggiungimento del traguardo e dissuade dall’abbandono. Per contro, l’introduzione del test d’ingresso on line e il cambio di ordinamento hanno incrementato il rischio di abbandono. Infine, il modello coglie differen- ze significative fra i tempi di permanenza in ateneo dei vari corsi di studio: gli Ingegneri Gestionali sembrano avere la propensione a laurearsi prima, gli Edili conseguono il titolo tardi e i Biomedici hanno tempi di abbandono an- ticipati rispetto ad Aerospaziali, Meccanici e Civili, che tendono a stazionare a lungo al Politecnico prima di laurearsi o abbandonare. Keywords: Bayesian inference; Censored data; Competing risks model; Cox proportional hazards model; Dropout; Duration of studies; Hierarchical centring; Kaplan-Meier estimator; Lifetime-type educational data; Log-rank test; Markov chain Monte Carlo methods; Multistate model; Random effect; Survival analysis; Unobserved heterogeneity. Indice Indice iii Introduzione 1 1 Analisi descrittiva 9 1.1 Le variabili . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.2 Analisi esplorativa unidimensionale . . . . . . . . . . . . . . . 14 1.2.1 Corso di studi . . . . . . . . . . . . . . . . . . . . . . . 17 1.2.2 Rendimento universitario . . . . . . . . . . . . . . . . . 18 1.2.3 Tempo di permanenza . . . . . . . . . . . . . . . . . . 21 1.3 Analisi esplorativa congiunta . . . . . . . . . . . . . . . . . . . 23 2 Modello multistato bayesiano 37 2.1 Il modello Cox Proportional Hazards . . . . . . . . . . . . . . 37 2.2 Modello multistato di Cox . . . . . . . . . . . . . . . . . . . . 41 2.2.1 Richiami sulla verosimiglianza di un modello PH con un solo stato finale . . . . . . . . . . . . . . . . . . . . 49 2.2.2 Rappresentazione di Poisson della verosimiglianza del modello multistato di Cox . . . . . . . . . . . . . . . . 51 2.3 Stima bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . . 53 2.3.1 Specificazione delle leggi iniziali per λ , λ . . . . . . . 54 L A 2.3.2 Specificazione delle leggi iniziali per β , β . . . . . . . 55 L A 2.3.3 Specificazione delle leggi iniziali per α˜ , α˜ . . . . . . . 58 L A 2.3.4 Specificazione delle leggi iniziali per γ . . . . . . . . . . 59 2.3.5 Specificazione della legge iniziale per Jee P . . . . . . 60 L 3 Risultati 61 3.1 Stime a posteriori di λ , λ . . . . . . . . . . . . . . . . . . . 62 L A 3.1.1 Stime a posteriori dell’iperparametro λ∗ . . . . . . . . 66 3.2 Stime a posteriori di β , β . . . . . . . . . . . . . . . . . . . 68 L A 3.2.1 Stime a posteriori degli iperparametri µ∗, τ . . . . . . . 74 iii iv Indice 3.3 Stime a posteriori di α , α . . . . . . . . . . . . . . . . . . . 76 L A 3.3.1 Stime a posteriori di τ . . . . . . . . . . . . . . . . . . 78 α 3.4 Stime a posteriori di γ . . . . . . . . . . . . . . . . . . . . . . 80 3.4.1 Stime a posteriori di σ2 . . . . . . . . . . . . . . . . . . 81 γ 3.5 Stime a posteriori di P . . . . . . . . . . . . . . . . . . . . . 83 L 3.6 Stima a posteriori dei tempi attesi di laurea e abbandono . . . 84 3.7 Stima a posteriori della funzione di sopravvivenza . . . . . . . 89 3.8 Stime a confronto per due campioni distinti . . . . . . . . . . 93 4 Conclusioni 97 4.1 Problemi aperti . . . . . . . . . . . . . . . . . . . . . . . . . . 103 A Analisi di sopravvivenza non parametrica 105 A.1 Curve di sopravvivenza di Kaplan-Meier . . . . . . . . . . . . 105 A.2 Log-rank test . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 A.3 Grafici delle curve di sopravvivenza . . . . . . . . . . . . . . . 109 B Diagnostiche di convergenza delle catene MCMC 119 C Codice JAGS 127 Bibliografia 135 Introduzione Questa tesi si occupa dello studio dei tempi di permanenza al Politecnico di Milano degli immatricolati puri negli anni accademici (AA) tra il 2001/02 e il 2013/14. Per “immatricolato puro” si intende uno studente immatricolato per la prima volta al Sistema Universitario Nazionale; si escludono, quindi, gli allievi precedentemente immatricolati al Sistema Universitario Nazionale che ora si trovano ad immatricolarsi presso il Politecnico. I dati di cui si dispone, forniti dall’Area Servizi ICT (ASICT) in data 19/06/2015, sono di tipo cross-section: fissato un preciso istante (la data di riferimento per l’analisi), si considerano le informazioni raccolte fino ad allora per allievi distinti, senza monitorare come variano nel tempo le ca- ratteristiche di ogni singolo individuo. In generale, modelli cross-sectional sono in grado di spiegare come i livelli di determinate variabili influiscano su una variabile oggetto di studio (nel nostro caso la durata del percorso uni- versitario), mentre i modelli longitudinali (in inglese event-history models) permettono di valutare le transizioni individuali da uno stato al successivo, per esempio dal momento in cui un allievo è ancora iscritto al momento in cui finisce di esserlo. Per un approfondimento sull’utilizzo di tecniche lon- gitudinali si rimanda a DesJardinis e altri [1999]; Kalamatianou e McClean [2003]. Per quanto riguarda la struttura del nostro dataset, le unità statistiche sono gli studenti, che possono essere raggruppati a vari livelli, per esempio in base al sesso, all’anno di immatricolazione, al corso di laurea scelto o ancora possono essere classificati in termini del loro “stato accademico”, co- me laureati, abbandoni o studenti attivi. Quest’ultimo raggruppamento, in particolare, è il cardine su cui ruota il nostro studio, che può essere inscrit- to in un contesto di analisi di sopravvivenza (in inglese survival analysis), tipicamente usato per modellare dati relativi a durate e tempi di vita. L’analisidisopravvivenzahaavutoorigineinambitomedico, mahacono- sciuto un notevole sviluppo in numerosi altri settori, da quello ingegneristico alle scienze sociali. Tuttavia, a nostra conoscenza, sono limitate le applica- zioni della survival analysis al ramo dell’istruzione, per lo studio dei tempi di 1 2 Introduzione abbandono (o della durata necessaria per conseguire un titolo) degli studenti iscritti a un istituto di scuola superiore o a un corso universitario. L’analisi della distribuzione del tempo necessario a completare la carrie- ra di studi è interessante per le seguenti ragioni: la frequenza delle lauree senza ritardi è un potenziale indicatore della performance del sistema sco- lastico/universitario (quanto meno è efficiente il sistema, tanto più lunghi saranno i tempi medi per il raggiungimento del diploma o della laurea); inol- tre, maggiore è la durata degli studi, maggiori saranno i costi. In aggiunta, conoscere il numero di diplomati/laureati per ogni periodo di tempo è utile per fare previsione sul futuro reclutamento di manodopera nell’industria. Tra i principali autori che usano metodi di analisi di sopravvivenza per la stimadeitempidilaurea, KalamatianoueMcClean[2003]sviluppanomodel- li, parametrici e non, per descrivere la distribuzione della durata degli studi di 10313 immatricolati in un’università greca durante i dieci anni accademici consecutivi dal 1983/84 al 1992/93. Tale durata ha una soglia inferiore, al di sopra della quale gli studenti possono ritardare a laurearsi senza limiti di tempo: una rilevante proporzione di allievi impiega, per conseguire il titolo, un tempo di gran lunga superiore al minimo necessario. Sembra, addirittu- ra, che alcuni siano perennemente iscritti, tanto da venire definiti “studenti perpetui”. Il fenomeno dello “studente perpetuo” può essere spiegato dal cambiamento delle condizioni del mercato del lavoro: i laureati, in numero sempre crescente, hanno difficoltà a trovare un’occupazione nel settore in cui si sono specializzati, di conseguenza la prospettiva di ottenere una laurea non è allettante come in passato. Il modello parametrico proposto dagli autori risulta adeguato a descrivere la distribuzione empirica dei tempi di laurea; inoltre, si rileva una differenza significativa tra la durata degli studi di allievi di sesso maschile e femminile. Anche le motivazioni alla base dell’interesse per il fenomeno degli ab- bandoni sono molteplici: in primis, il fatto di non completare il percorso di studi ha un impatto negativo a livello sociale, poiché gli studenti che si riti- rano tendono a guadagnare meno di chi consegue il titolo, oltre ad essere più esposti, proprio a causa del loro minore grado di istruzione, al rischio di di- soccupazione e alla necessità di ricevere un sussidio da parte dello stato. Ma le ripercussioni sono anche a livello istituzionale, dato che un calo nel numero di iscritti porta alla perdita di finanziamenti per l’ateneo, e a livello personale e intergenerazionale, in quanto la qualità degli studi dei genitori incide sulla percezione che un allievo ha del proprio stato socio-economico e può influire sul rischio di abbandonare la scuola. Diventa, allora, di primaria importan- za comprendere quali fattori possano spiegare la decisione di ritirarsi. Da Introduzione 3 un punto di vista modellistico, tali fattori sono variabili esplicative indipen- denti, mentre il periodo compreso tra l’immatricolazione e l’abbandono è la variabile dipendente. DesJardinis e altri [1999] sviluppano un modello longitudinale per descri- vere la dinamica degli abbandoni al college, basandosi sulla seguente assun- zione: gli allievi che si ritirano dal college corrispondono a dati esatti, quelli che concludono con successo il loro percorso di studi sono censurati al tempo in cui conseguono il diploma, quelli che risultano ancora iscritti nell’ultimo periodo di osservazione sono censurati “a destra” (in inglese right censored). Lo scopo dello studio di DesJardinis e altri [1999] è individuare i tempi in cui gli studenti sono maggiormente a rischio di lasciare il college, in modo da rendere possibili efficienti strategie di intervento, volte a ridurre i costi sociali, istituzionali e individuali associati all’abbandono precoce del college. Min e altri [2011] indagano l’impatto di coorte, sesso, etnia e punteggio del test d’ingresso (SAT) in matematica e comprensione verbale sul tasso di abbandono di studenti di Ingegneria, per verificare se il profilo di rischio cam- bi fra gruppi con diversa estrazione e per comprendere quanto sia probabile che gli allievi si ritirino e quale punteggio del SAT meglio predica tale eve- nienza. Min e altri [2011] dispongono di dati longitudinali relativi a 100179 studenti di Ingegneria di 9 università degli Stati Uniti, su un arco temporale di 19 anni; il metodo da loro adottato consiste in un’analisi di sopravvivenza classica, al fine di ottenere stime della funzione di sopravvivenza e del tasso di rischio associato. Dall’analisi risulta che studenti bianchi o di sesso femmi- nile tendono ad abbandonare Ingegneria prima degli altri. Gli abbandoni si concentrano in larga parte nel terzo semestre, ma gli allievi con un punteggio di matematica al SAT inferiore a 550 si ritirano anticipatamente, durante il secondo semestre. Per quanto riguarda il SAT, il punteggio in matemati- ca è un miglior predittore del rischio di abbandono rispetto al punteggio in comprensione verbale. Restaino [2008] si focalizza sull’analisi non parametrica dei tempi di ab- bandono degli immatricolati all’Università di Salerno nell’anno accademico 2002/03, seguiti per 5 anni (fino all’AA 2006/07), con l’obiettivo di stimare la probabilità di sopravvivenza in ateneo e individuare quali caratteristiche personali, familiari e sociali possano indurre a interrompere la carriera ac- cademica. Lo studio rivela un forte calo delle iscrizioni al primo anno per le facoltà di Scienze Politiche e della Formazione. Inoltre, studenti di ses- so femminile, provenienti da un liceo e usciti dalla scuola superiore con il massimo dei voti hanno la più alta probabilità di sopravvivere in università e, quindi, di laurearsi. La stima di Restaino [2008] si basa sul metodo di Kaplan-Meier e il log-rank test riscontra differenze significative tra le varie facoltà. Infine, il modello a rischi proporzionali di Cox, implementato per 4 Introduzione ogni facoltà, conferma i precedenti risultati. Il caso degli abbandoni in Italia è stato di recente affrontato anche da Belloc e altri [2010], che analizzano il tasso di abbandono nella facoltà di Economia e Commercio dell’Università Sapienza di Roma, usando dati am- ministrativi su 9725 studenti, immatricolati fra il 2001 e il 2007 a un pro- gramma di laurea triennale. A questi dati Belloc e altri [2010] applicano un modello lineare generalizzato a effetti misti (GLM), focalizzandosi sulle caratteristiche personali degli allievi piuttosto che sugli aspetti istituziona- li dell’università, con lo scopo di comprendere a fondo i motivi per cui gli studenti si ritirano. L’analisi empirica rivela un effetto statisticamente signi- ficativo per le variabili cittadinanza e reddito; inoltre, lega un’elevata proba- bilitàdiabbandonoalvotodimaturitàeadunascarsaprestazionescolastica. In questo lavoro ci proponiamo di trattare congiuntamente gli eventi lau- rea e abbandono, che rappresentano due stati competitivi, poiché concorrono a determinare il punto di arrivo di ogni immatricolato al Politecnico. Infatti, uno studente attivo può coronare gli anni di studio con una laurea oppure interrompere il percorso universitario ritirandosi in modo definitivo. Per te- nere conto di entrambi i possibili esiti del percorso accademico adottiamo un “modello multistato”, nella fattispecie a due stati mutuamente esclusivi. L’interesse metodologico e applicativo nei modelli multistate e competing risks è testimoniato dalla letteratura recente sull’argomento. Per esempio, Burda e altri [2015] sviluppano e generalizzano modelli econometrici baye- siani a rischi competitivi con dati censurati, introducendo una funzione di rischio baseline costante a tratti, regressori tempo-varianti, effetti aleatori a livello di individuo, specifici per ogni rischio, e un effetto latente comune, che induce correlazione tra i rischi. Il modello di Burda e altri [2015] è appli- cato a dati relativi a individui statunitensi che beneficiano di un’indennità di disoccupazione. Costoro possono trovare lavoro nello stesso settore in cui erano precedentemente occupati (evento 1) oppure in uno diverso (evento 2). Lo scopo dell’indagine è individuare i fattori che determinano la durata del periodo di disoccupazione, che si conclude con uno dei due sopracitati eventi. L’applicazione di modelli multistato trova terreno fertile in vari campi di ricerca. Per esempio, Epifani e altri [2014] adottano un modello multistato bayesiano per fare inferenza sulle caratteristiche dei terremoti negli appenni- ni dell’Italia centro-settentrionale. I dati sperimentali osservati sono il tempo che intercorre tra due terremoti consecutivi e lo stato visitato dal processo, che si identifica con il livello di severità di ogni terremoto della sequenza campionaria. Si distinguono 3 stati (livello di severità basso, medio, alto) e si assume che, condizionatamente alla transizione fra due determinati stati, gli “inter-tempi” di occorrenza siano distribuiti secondo una legge di Wei-
Description: