Corpus Avalle
CNR-Opera del Vocabolario Italiano
Guida ai contenuti


Il progetto delle "Concordanze della lingua poetica italiana delle Origini (CLPIO)" di d'Arco Silvio Avalle fu avviato all'inizio degli anni Settanta, con un finanziamento di Raffaele Mattioli per la casa editrice Ricciardi. La nuova edizione dei manoscritti duecenteschi si accompagnò alla pionieristica elaborazione elettronica del corpus, e continuò presso l'Accademia della Crusca, affiancandosi all’attività dell'Opera del Vocabolario durante la direzione di Avalle (1974-1984). Il fondamentale risultato di questa lunga fase è la pubblicazione dei testi e dell'omofonario, corredati da un'ampia introduzione linguistica (Ricciardi 1992). A questo primo volume dovevano seguirne altri 5 con le concordanze lemmatizzate, elaborate tramite il programma DBT di Eugenio Picchi.

Dopo l'uscita del corpus a stampa, la lemmatizzazione fu realizzata fra il 1994 e il 1998 da un gruppo di giovani redattori, sovvenzionati dalla casa editrice Ricciardi e dall'Accademia della Crusca. Il lavoro fu impostato aggiornando gli obiettivi originari del progetto: non più una pubblicazione a stampa, ma in CD-ROM, in modo da garantire una rinnovata funzionalità dei dati testuali e lessicali, come poteva emergere dalla lemmatizzazione integrale del corpus. A tal fine si resero necessari importanti adattamenti del programma DBT, secondo un modello che consentisse una ricerca dei contesti paralleli nei diversi manoscritti, e che gestisse la particolare struttura sintagmatica della lemmatizzazione.

Alla soglia del 2000, più fattori concorsero però a congelare il progetto prima che potesse raggiungere la pubblicazione. Esaurito il sostegno della Crusca e entrata in crisi l'autonomia della Ricciardi, la redazione non fu più supportata; nel frattempo la complessità delle modifiche apportate al programma DBT non riuscì a stabilizzarsi in una versione pubblicabile.

Dopo vari tentativi di recuperare l'ingente lavoro compiuto negli anni Novanta per renderlo compatibile con l'evoluzione dell'informatica, è attualmente allo studio un programma di conversione di quei dati. Come prima tappa (2015), il “corpus Avalle” non lemmatizzato è stato reso consultabile qui tramite Gattoweb (grazie a Andrea Boccellari, Diego Dotto, Paolo Squillacioti). Si prevede in seguito di pubblicare on line anche il lemmario, e infine di avviare la complessa operazione di migrazione dei dati in un nuovo ambiente, che consenta per quanto possibile di ripristinare le funzionalità del corpus lemmatizzato.

Gruppo di lavoro 1994-1998
Redazione e revisione: Giovanna Frosini, Maria Sofia Lannutti, Lino Leonardi (coord.), Linda Pagnotta, Raffaella Pelosini.
Redazione: Giovanna Balbi, Barbara Degl’Innocenti, Fabio Zinelli.
Elaborazione informatica: Eugenio Picchi, con la collaborazione di Elisabetta Marinai.

Avvertenze per la consultazione

Il corpus comprende 3.550 unità testuali per 389.175 occorrenze e 33.659 forme distinte. Per "unità testuale" si intende ciascuna delle unità bibliografiche, che possono essere un testo in senso proprio (1.812), un elemento paratestuale (1.380) o un incipit negli indici dei manoscritti Cortonese e Vaticano (358).

La successione dei testi non è cronologica, ma segue l'ordine dell'edizione Ricciardi del 1992.

Attualmente il corpus è interrogabile per forme, per cooccorrenze o per singole unità testuali.

Per quest'ultima forma di consultazione, è sufficiente seguire questo percorso dalla pagina Scelta dell'operazione utilizzando i menu collocati nella parte superiore: Altre funzioni > visualizzazione di riferimenti organici > Scegli testo (il reperimento della sigla del testo è facilitato dal menu Lista sigle testi..) > inserire una sigla > cliccare su "procedi" > cliccare su "rif. org. privo di intestazione".

È possibile accedere all'intera unità testuale anche dalla ricerca per forme: nella pagina Risultati della ricerca, con visualizzazione delle singole occorrenze per contesti multipli, cliccare su uno dei contesti per accedere alla visualizzazione per contesto singolo e quindi cliccare su "mostra intero rif. org." nella colonna a sinistra.

Per ricerche sulle sole occorrenze in rima (solo alla fine di verso), dalla pagina Ricerca per forme selezionare Rimario > fine verso (il menu diventerà maiuscolo per indicare che la restrizione è attiva).

Il corpus è reso disponibile in rete per le ricerche linguistiche e consente di scaricare brevi citazioni per uso di ricerca.

Lo scaricamento dei testi è vietato.

Definizione di sottocorpora

Per facilitare la creazione di sottocorpora che riuniscano testi con caratteristiche omogenee, le schede bibliografiche associate ad ogni unità testuale sono state compilate secondo particolari modalità (diverse rispetto a quelle degli altri corpora OVI).

Dalla pagina iniziale Scelta dell'operazione, selezionare nel menu in alto l'opzione Altre funzioni > definizione di sottocorpora.

All'interno della tabella che sarà visualizzata, riempire i campi desiderati (è possibile e di norma consigliabile la ricerca con caratteri jolly perché altrimenti la corrispondenza deve essere esatta: * = qualunque stringa di uno o più caratteri, o anche nessuno; ? = un qualunque carattere), quindi selezionare l'opzione Opera selezione.. > nuova.

Si richiamano alcune delle modalità con cui si possono impostare sottocorpora a partire dai campi:

Per la comunicazione di osservazioni ed eventuali errori, saremo grati a chi vorrà inviare un messaggio di posta elettronica all'indirizzo leonardi @ ovi.cnr.it.