ebook img

Testo e computer. Elementi di linguistica computazionale PDF

250 Pages·2005·1.751 MB·italian
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview Testo e computer. Elementi di linguistica computazionale

UNIVERSITÀ / 664 LINGUISTICA I lettori che desiderano informazioni sui volumi pubblicati dalla casa editrice possono rivolgersi direttamente a: Carocci editore via Sardegna 50, 00187 Roma, telefono 06 42818417, fax 06 42747931 Visitateci sul nostro sito Internet: http://www.carocci.it Alessandro Lenci Simonetta Montemagni Vito Pirrelli Testo e computer Elementi di linguistica computazionale Carocci editore Ad Andrea, Francesco e Rachele 1aedizione, maggio 2005 © copyright 2005 by Carocci editore S.p.A., Roma Finito di stampare nel maggio 2005 per i tipi delle Arti Grafiche Editoriali Srl, Urbino ISBN 88-430-3425-1 Riproduzione vietata ai sensi di legge (art. 171 della legge 22 aprile 1941, n. 633) Senza regolare autorizzazione, è vietato riprodurre questo volume anche parzialmente e con qualsiasi mezzo, compresa la fotocopia, anche per uso interno o didattico. Indice Introduzione 000 Linguaggio e computer 000 La linguistica computazionale tra ieri e oggi 000 Di cosa parla questo libro 000 Parte prima Il dato testuale e la sua rappresentazione 1. I dati della lingua 000 1.1. Le fonti dei dati linguistici 000 1.1.1. Dati “ecologici” e dati controllati 1.2. I corpora 000 1.2.1. Tipi di corpora 1.3. Il corpus come campione 000 1.3.1. Rappresentatività e variabilità / 1.3.2. Corpora bilanciati 1.4. I corpora in LC: istruzioni per l’uso 000 1.4.1. I limiti della rappresentatività / 1.4.2. Il corpus come bench- mark/ 1.4.3. I corpora specialistici / 1.4.4. Corpora di addestramento / 1.4.5. Usare il web come corpus 1.5. Considerazioni conclusive 000 Per saperne di più 000 2. Il testo e la sua codifica digitale 000 2.1. La codifica digitale del testo: il problema 000 2.2. Livelli di codifica 000 7 TESTOECOMPUTER 2.3. La codifica di livello zero 000 2.3.1. Il set di caratteri ASCII/ 2.3.2. Il set di caratteri Unicode 2.4. La codifica di alto livello: perché, cosa, come 000 2.4.1. Perché codificare / 2.4.2. Cosa codificare / 2.4.3. Come codifi- care 2.5. Considerazioni conclusive 000 Per saperne di più 000 3. Costruire un linguaggio di marcatura 000 3.1. XML: principi di base 000 3.2. I componenti della marcatura XML 000 3.2.1. Elementi / 3.2.2. Attributi / 3.2.3. Riferimenti a carattere e a entità / 3.2.4. Commenti 3.3. La definizione del tipo di documento (DTD) 000 3.3.1. La dichiarazione di un elemento / 3.3.2. La dichiarazione di un attributo / 3.3.3. La dichiarazione di un’entità 3.4. Struttura e validazione di un documento XML 000 3.5. La codifica del testo in formato XML: un esempio 000 3.6. Standard e codifica del testo 000 3.6.1. Iniziative internazionali di standardizzazione della codifica del testo / 3.6.2. Lo schema di codifica XCES 3.7. Considerazioni conclusive 000 Per saperne di più 000 Parte seconda Metodi e tecniche di analisi testuale 4. Dal bitalla parola 000 4.1. La “tokenizzazione” del testo 000 4.1.1. I criteri per la tokenizzazione 4.2. Le espressioni regolari 000 4.2.1. La sintassi delle espressioni regolari 4.3. Analizzare il linguaggio con le espressioni regolari 000 Per saperne di più 000 8 INDICE 5. Parole e numeri 000 5.1. Popolazione e testo 000 5.2. Parole unità e parole tipo 000 5.3. Frequenze e distribuzioni 000 5.3.1. La media aritmetica / 5.3.2. La deviazione standard / 5.3.3. Leggere le distribuzioni 5.4. Il vocabolario di un testo 000 5.4.1. Rapporto tipo/unità / 5.4.2. Parole grammaticali e parole piene 5.5. La legge di Zipf 000 5.5.1. La famiglia Zipf 5.6. La dinamica del vocabolario 000 5.6.1. La crescita di V/ 5.6.2. La frequenza media 5.7. Medie e inferenza statistica 000 Per saperne di più 000 6. Probabilità ed entropia 000 6.1. Il concetto di probabilità 000 6.1.1. Spazio campionario e distribuzione di probabilità / 6.1.2. Even- ti congiunti / 6.1.3. Probabilità e frequenza 6.2. Lingua e probabilità 000 6.2.1. Modelli stocastici / 6.2.2. Modelli linguistici stocastici 6.3. Modelli markoviani 000 6.3.1. Il modello base: l’urna lessicale / 6.3.2. Probabilità condiziona- te e catene markoviane del primo ordine / 6.3.3. Oltre le catene del primo ordine 6.4. Linguaggio ed entropia 000 6.4.1. Vocabolario ed entropia / 6.4.2. Testo ed entropia 6.5. Considerazioni conclusive 000 Per saperne di più 000 Parte terza Esplorazione e annotazione del testo 7. Esplorare il testo 000 7.1. Modi di esplorazione 000 7.2. Le parole e il loro habitat: le concordanze 000 7.2.1. Tipi di concordanze 9 TESTOECOMPUTER 7.3. Funzioni di ricerca avanzate 000 7.3.1. Problemi e soluzioni 7.4. Collocazioni 000 7.4.1. Alla ricerca di collocazioni 7.5. Conclusioni 000 Per saperne di più 000 8. L’annotazione linguistica del testo 000 8.1. Livelli di annotazione 000 8.1.1. Annotazione morfo-sintattica / 8.1.2. Annotazione sintattica / 8.1.3. Annotazione semantica / 8.1.4. Annotazione pragmatica 8.2. Corpora annotati 000 8.3. “Anatomia” di uno schema di annotazione 000 8.3.1. Annotazione e informazione categoriale / 8.3.2. Annotazione e informazione strutturale / 8.3.3. Annotazione e informazione relazio- nale / 8.3.4. Tipi di informazione di base e schemi di annotazione 8.4. Tipi di informazione e rappresentazione XML 000 8.4.1. Rappresentazione XMLdi informazione categoriale / 8.4.2. Rap- presentazione XMLdi informazione strutturale / 8.4.3. Rappresentazio- ne XMLdi informazione relazionale 8.5. Annotazione stand-off 000 8.6. Standard e annotazione linguistica 000 8.7. Per concludere 000 Per saperne di più 000 9. Verso il trattamento automatico della lingua 000 9.1. Insegnare la lingua al computer 000 9.2. Un esempio: la morfologia 000 9.3. Alcune conclusioni (in forma di introduzione) 000 Bibliografia 000 10

See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.