Introduzione all'indicizzazione / Serafina Spinelli

Macerata, 21.11.2006

Introduzione e Definizioni

Un po' di contesto

Fra gli obbiettivi di una biblioteca (e non solo...):

  1. Organizzare/rappresentare oggetti/informazioni
    L'ordine fisico degli oggetti può essere significativo: es. negozi, esposizioni, supermercati, però...
    L'ordine fisico è monodimensionale, la rappresentazione sintetica (la creazione dei "surrogati...") garantisce la maneggevolezza e la multidimensionalità, cioè la molteplicità di accessi: es. cataloghi commerciali, cataloghi bibliografici, database di tutti i tipi.
    Es.: Ikea:
    • il catalogo online (che fa da "opac")
    • l'esposizione (che fa da "catalogo fisico", con scheda descrittiva e "collocazione")
    • il magazzino (che fa da magazzino/scaffale)
  2. Rendere possibile la ricerca/il recupero di oggetti/informazioni
    Esplicitare le caratteristiche scelte e i criteri di organizzazione degli oggetti e/o delle rappresentazioni.
    Garantire un ordinamento univoco, perspicuo e coerente.
    Quindi: rendere possibile la selezione di ciò che si desidera, la sua localizzazione, il suo recupero
Perchè?
Indicizzazione

Di cosa parliamo quando parliamo di "indicizzazione".

Come descrivere il contenuto semantico delle risorse informative, degli oggetti che veicolano informazione, in modo che possano essere efficacemente trovati ed utilizzati da chi ne ha bisogno.
In generale: l'indice è una lista di reperimento: Indici: rappresentazioni delle informazioni + indirizzi.
Cataloghi e indici: materializzazioni della mediazione fra documenti e utenti.
Due categorie fondamentali di ricerche: a) di oggetti noti; b) di oggetti che condividono una caratteristica di interesse dell'utente.

1. Serrai (1974)
Indicizzare vuol dire assegnare uno o più caratteri di riconoscimento o di recupero ad un documento. Questi caratteri possono esprimersi come simboli di una classe o sottoclasse in un sistema classificatorio, o come dei soggetti, ossia singole parole o combinazioni di parole, in un catalogo, detto appunto per soggetti.

2. Maltese (1982)
Indicizzare un documento significa indicarne il contenuto dal punto di vista del soggetto, di ciò di cui si parla, dare del documento una descrizione da indice, cioè una descrizione molto breve del suo soggetto.

3. Caffo (1988)
L'indicizzazione è la tecnica per costruire accessi attraverso il contenuto semantico dei documenti, distinti da altre forme di accesso, e comprende sia il processo di analisi concettuale del documento, sia la traduzione del contenuto informazionale del documento in un linguaggio d'indicizzazione.

4. Petrucciani (1984)
L'indicizzazione consiste nell'attribuire ai documenti una rappresentazione contratta, più o meno strutturata, che permette una esplorazione selettiva non praticabile sui documenti stessi.

5. Petrucciani (1991)
L'indicizzazione consiste nell'attribuire ai documenti, per il recupero, delle brevi "rappresentazioni" indicative del loro contenuto (voci d'indice, intestazioni di soggetto, simboli di classificazione, parole chiave, ecc.). In genere, contemporaneamente, viene ad essi attribuita una descrizione bibliografica, cioè una "carta d'identità" contenente i propri connotati.

6. Cheti (MIAC, 1996)
E' l'operazione mediante la quale si creano gli accessi al contenuto semantico del documento. Consta delle fasi di analisi concettuale e di traduzione dei concetti individuati e delle relazioni logiche individuate nei termini e nelle forme proprie del linguaggio di indicizzazione prescelto.

7. Bogliolo (1998)
Indicizzare significa creare indici, cioè un'organizzazione sistematica di oggetti simbolici (parole, frasi, codici alfa-numerici) finalizzati a consentire a un utente di trovare l'informazione relativa a un documento ospitato in un determinato archivio.

8. Gnoli (2000)
Rappresentazione sintetica [dei contenuti] dei documenti mediante l'attribuzione di indici ricercabili.

Gli standard:

1. ISO 5127/5 (Vocabolario, 1981)
L'indicizzazione è l'azione mirante a rappresentare i risultati dell'analisi di un documento con gli elementi di un linguaggio naturale o di un linguaggio documentario, generalmente per facilitarne il reperimento.

2. ISO 5963 (Metodi per l'analisi dei documenti..., 1985)

L'indicizzazione è l'azione di descrivere o identificare un documento nei termini del suo contenuto concettuale.

Sistema d'Indicizzazione

Insieme delle procedure per l'organizzazione e la rappresentazione del contenuto dei documenti (comprende software di gestione).

Linguaggio d'Indicizzazione o Linguaggio Documentario

Codice attraverso il quale si rappresenta e trasmette il contenuto informazionale del documento, allo scopo di renderne possibile il recupero.

Strumento per la rappresentazione coerente, formalizzata e sintetica del contenuto concettuale dei documenti, funzionale alla segnalazione e al reperimento dei documenti stessi [GRIS].

Insieme di termini (semantica) ammessi per descrivere il contenuto dei documenti o per organizzare una ricerca su di essi, e insieme di regole (sintassi) che stabiliscono l'ordine e le modalità di citazione dei termini.

Sistema Documentario

Contesto in cui si effettuano le procedure di trattamento della documentazione (Biblioteca, Centro di documentazione...) e di ricerca e reperimento dell'informazione.

Information retrieval

Insieme di tecniche per il reperimento dei documenti rilevanti rispetto ad una determinata esigenza informativa dell'utente.

Criteri di valutazione dei risultati della ricerca: rilevanza, richiamo e precisione.

Insiemi
Grado di Richiamo

Numero di documenti rilevanti recuperati rispetto al numero totale di documenti rilevanti della biblioteca.
Formula di calcolo:
GR = docc. rilevanti recuperati : totale docc. rilevanti

Grado di Precisione

Numero di documenti rilevanti rispetto al numero di documenti recuperati.
Formula di calcolo:
GP = docc. rilevanti recuperati : totale docc. recuperati

Rumore

Documenti recuperati non rilevanti.

Futility point

Quantità massima di documenti fra i quali un utente è disposto a cercare quelli che effettivamente rispondono alle sue esigenze informative. Di solito stimato attorno a 30.

Il paradosso del FP: Mi sento fortunato di Google!
Il Linguaggio d'Indicizzazione

Benchè possa essere utilizzato come linguaggio d'indicizzazione anche il linguaggio naturale, di norma per linguaggio d'indicizzazione s'intende un linguaggio controllato o formalizzato o artificiale, con il quale si faccia indicizzazione per concetti e non indicizzazione per termini.

Linguaggio controllato è un linguaggio all'interno del quale sia esercitato il controllo degli equivalenti semantici e sintattici (della sinonimia semantica e sintattica), e cioè:

Quindi fare indicizzazione per concetti (o indicizzazione assegnata) significa:

L'indicizzazione per concetti è perciò impegnativa in fase di input (cioè di indicizzazione del documento), ma economica in fase di output (cioè di ricerca).

Invece fare indicizzazione per termini (o indicizzazione derivata) significa:

L'indicizzazione per termini è perciò economica in fase di input (cioè di indicizzazione del documento), ma impegnativa in fase di output (cioè di ricerca).

Come il linguaggio naturale, il linguaggio d'indicizzazione è costituito da vocabolario (insieme di termini) e sintassi (insieme di regole di combinazione dei termini) attraverso i quali si dà un nome ai concetti, e cioè:

Si può distinguere fra vocabolario d'indicizzazione (costituito dai termini preferiti, cioè effettivamente attribuibili al documento per la sua indicizzazione) e vocabolario d'accesso (costituito sia dai termini preferiti che dai termini non preferiti, cioè dai termini che non possono essere utilizzati per l'indicizzazione e che rimandano a termini preferiti), che può essere usato dall'utente in fase di ricerca e che lo indirizza verso i termini del vocabolario d'indicizzazione.

Linguaggi d'Indicizzazione

Enumerativi

Sono quelli che enumerano tutti e soli i termini o le combinazioni di termini (quindi sia soggetti semplici che soggetti composti) che l'indicizzatore può usare. In generale sono:

Esempi: CDD, [CDU], Soggettario, LCSH

Analitico-Sintetici

Sono quelli che elencano solo soggetti semplici, che vanno poi combinati secondo appropriate regole sintattiche. In generale sono:

Esempi: Classificazioni a faccette, Bliss, Thesauri (propriamente "vocabolari")

Precoordinati

Sono quelli nei quali i termini che esprimono i concetti (A, B, C) vengono coordinati (cioè combinati secondo regole sintattiche che ne determinano l'ordine di citazione) prima, cioè al momento dell'indicizzazione.

La stringa che ne risulta è collegata nel suo insieme al documento e dà un'immagine complessiva del contenuto del documento.

Esempi: CDD, CDU, Soggettario

Undisplayed Graphic

Postcoordinati

Sono quelli in cui all'atto dell'indicizzazione i termini vengono collegati direttamente al documento e non fra di loro. La coordinazione viene fatta solo al momento della ricerca da parte dell'utente, attraverso strumenti come gli operatori booleani.

Ogni termine dà accesso al documento ma non ne descrive il contenuto complessivo.

Esempi: Thesauri non integrati con norme sintattiche, Parole chiave.

Undisplayed Graphic

Approfondimenti: Risorse on-line per l'indicizzazione; Introduzione ai thesauri; Thesaurus regionale toscano; Catalogo della Biblioteca della Giunta regionale toscana; Catalogo della Charles W. Cushman Photograph Collection (Indiana University), con thesaurus integrato nella ricerca per soggetto; introd. alla CDD su Alice; la pagina della Classificazione Decimale Dewey della LIUC; ricerca per CDD nell'opac UniBo; introd. alla CDU su Alice; pagina CDU Online. Per fare una pausa: la finalissima di "Lotta di classe" di Kurzweil. Ma il 616.85270086947095335 esiste davvero?.
Ma il 616.85270086947095335 esiste davvero? Sì! (616.8527=depressione; 0=agg. suddivisioni standard tav.1; 08=persone; 6947=madri nubili; 09=in periodo o luogo geografico tav. 2; 5335=Yemen meridionale), anche se in questo momento non è utilizzato, però sono utilizzate notazioni come 851.91408094539433 (Equiv. verb. CDD=POESIA ITALIANA. 1945-. Raccolte. Scrittori sanvitesi; Soggetto=POESIA ITALIANA - Poeti friulani - Sec. 20. - Antologie), oppure 001.109421420904 (Equiv. verb. CDD=VITA INTELLETTUALE. North London. Borough londinese di Camden. Sec. 20.; Soggetti=1. LONDRA - Vita artistica e culturale - Sec. 20.;2. BELL, VANESSA; 3 CARRINGTON, DORA; WOOLF, VIRGINIA).

Operazioni fondamentali dell'indicizzazione


1. Analisi concettuale

Identificazione del contenuto concettuale del documento per poterne poi organizzare la rappresentazione attraverso i codici del linguaggio documentario.

Fonte normativa: ISO 5963 del 1981: Methods for examining documents, determining their subjects and selecting indexing terms, in 9 sezioni:

  1. scopi e campi di applicazione della norma;
  2. altre norme correlate;
  3. definizione dei termini usati;
  4. analisi dei tre stadi dell'indicizzazione (1. esame del documento e determinazione del soggetto; 2. identificazione dei concetti principali; 3. traduzione nei termini di un linguaggio di indicizzazione);
  5. analisi del primo stadio e raccomandazioni sulle parti del documento da considerare più attentamente;
  6. identificazione dei concetti secondo un procedimento di scomposizione del soggetto simile all'analisi per faccette; scelta dei concetti da indicizzare;
  7. problema della selezione dei termini di indicizzazione, con riferimento alla ISO 2788 (thesauri);
  8. controllo di qualità e coerenza dell'indicizzazione;
  9. conclusioni, raccomandazioni di standardizzazione dei metodi, principali problemi dell'analisi e direttive generali.

In dettaglio:

Le principali fonti per l'esame del documento e l'accertamento del contenuto sono:

titolo, sottotitolo, indice, sommario, introduzione, conclusioni, riferimenti bibliografici, illustrazioni, fonti esterne.

L'individuazione dei concetti secondo il procedimento di 'scomposizione del soggetto' viene guidata da una serie di domande che costituiscono la cosiddetta lista di controllo:

Approfondimenti: il Manuale ipertestuale di analisi concettuale.

2. Traduzione nel linguaggio d'indicizzazione

Traduzione dei termini usati nell'analisi concettuale nei termini o segni del linguaggio documentario.

2.1 Scelta dei termini

Scelta dei termini che, all'interno del vocabolario del linguaggio d'indicizzazione adottato, sono deputati a rappresentare univocamente i concetti identificati in fase di analisi concettuale.

2.2 Costruzione della stringa

Ordinamento dei termini secondo l'ordine di citazione previsto dal linguaggio adottato.

Principi fondamentali dell'indicizzazione per soggetto

Focalizziamo la nostra attenzione sull'indicizzazione per soggetto, intendendo per questa:

la rappresentazione coerente, formalizzata e sintetica del contenuto concettuale dei documenti, funzionale alla segnalazione e al reperimento dei documenti stessi, per mezzo di un linguaggio di indicizzazione verbale di tipo precoordinato, costituito da:
  • un insieme controllato di termini scelti dalla lingua naturale per esprimere univocamente i singoli concetti (vocabolario)
  • un insieme di norme che regolano la combinazione dei termini in sequenze sintatticamente unitarie (sintassi).
  • I principi fondamentali dell'indicizzazione per soggetto sono principi che sottostanno all'attività d'indicizzazione:

    Uniformità e unità

    Uniformità: all'interno di un certo linguaggio, un concetto o combinazione di concetti è sempre rappresentato da un solo termine o sequenza di termini (controllo della sinonimia).

    Unità: all'interno di un certo linguaggio, un termine o sequenza di termini rappresenta sempre un solo concetto o combinazione di concetti (controllo della polisemia).

    Il controllo della sinonimia si realizza in campo semantico attraverso la scelta di un termine preferito e l'approntamento di rinvii dai sinonimi e quasi-sinonimi, in campo sintattico attraverso l'applicazione di una ordine di citazione uniforme dei termini nella costruzione delle stringhe. In caso di più ordini di citazione ammessi, va effettuata la scelta di un ordine di citazione preferito e l'approntamento di rinvii dagli altri.

    Il controllo della polisemia avviene precisando, nel caso di termini omonimi o polisemici, il preciso significato col quale il termine è utilizzato all'interno del linguaggio d'indicizzazione.

    Esaustività

    L'analisi concettuale dovrebbe portare all'individuazione di tutti i concetti e delle relazioni che definiscono esattamente il soggetto del documento.

    E' una caratteristica che si realizza diversamente a seconda che si agisca nell'ambito della sommarizzazione o dell'indicizzazione approfondita, che differiscono per numero e tipologia di concetti identificati come essenziali per la descrizione del soggetto ed effettivamente tradotti nei termini del linguaggio d'indicizzazione.

    Sommarizzazione (identificazione del soggetto complessivo) vs indicizzazione approfondita (estrazione di tutti i concetti ritenuti importanti).

    In un linguaggio che esprima in forma di descrizione sintetica il contenuto del documento, l'indicizzatore dovrebbe identificare tutti i concetti essenziali per esprimere il soggetto, ossia il tema complessivo o centrale o tema di base del documento.

    Coestensione

    La descrizione del soggetto del documento dovrebbe essere tradotto in una sola stringa che contenga tutti gli elementi indispensabili ad individuare il soggetto, e non in più stringhe, solo dalla cui unione si evince il soggetto complessivo.
    Es.: soggetti di: Guida alla catalogazione in SBN : libro antico in Opac LC (lanciare ricerca precompilata e guardare record completo - scheda soggetti) e in Opac Unibo.

    Specificità

    Precisione con cui un particolare concetto identificato nel soggetto del documento è rappresentato dal linguaggio d'indicizzazione.

    I concetti dovrebbero essere espressi nel modo più specifico possibile, specie se il vocabolario è strutturato in modo tale da garantire l'accesso anche partendo da termini più generali.

    Il problema è particolarmente sentito nel caso delle classificazioni, che raramente arrivano ad un livello di dettaglio sufficiente da garantire un buon grado di specificità per le biblioteche specializzate.

    Coerenza

    Omogeneità di trattamento da parte dello stesso indicizzatore in tempi diversi, o da parte di diversi indicizzatori.

    E' un requisito dipendente dall'indicizzatore o dal gruppo di indicizzatori, e dalla qualità degli strumenti di indicizzazione.

    Accessibilità

    E' un requisito dipendente dal software del sistema d'indicizzazione, che dovrebbe prevedere una molteplicità di accessi alle rappresentazioni del contenuto semantico dei documenti.

    Ad es.:

    Criteri e metodi della teoria moderna dell'indicizzazione

    La teoria moderna dell'indicizzazione ha elaborato una serie di criteri e di metodi volti a garantire il rispetto dei principi fondamentali dell'indicizzazione.

    I più importanti:

    definizione/distinzione delle relazioni semantiche e delle relazioni sintattiche

    Le relazioni semantiche o a priori sono quelle che un termine intrattiene con altri termini in virtù del proprio significato, sono universalmente valide ed indipendenti dal documento cui il termine è assegnato.

    Sono le relazioni esplicitate dai thesauri, dagli schemi di classificazione (parzialmente), dalla struttura sindetica (richiami - v.a., ** - e rinvii - v. * -) dei soggettari.

    Le relazioni sintattiche o a posteriori sono quelle che un termine intrattiene con gli altri termini della stessa stringa in virtù dei rapporti determinati dal soggetto del documento cui è assegnata la stringa, e sono valide solo nel contesto di quella stringa.

    Sono le relazioni esplicitate dalle stringhe di soggetto.

    uso dell'analisi categoriale per l'analisi delle relazioni semantiche e sintattiche

    Consiste nell'analisi dei termini in base:

    Avviene sulla base di parametri come:

    L'analisi categoriale aiuta l'indicizzatore a:

    ordine di citazione e scelta della costruzione passiva

    L'ordine di citazione si ispira in genere a due criteri:

    Alcuni fra i più noti ordini di citazione:

    Approfondimenti: Guida GRIS.
    Il panorama internazionale

    GSARE

    Guidelines for subject authority and reference entries / IFLA. - München : Saur, 1993.

    Si tratta di linee guida per la creazione e la manutenzione di liste di voci di autorità di soggetto (analogamente a quanto fa GARE per l'authority control in generale), emanate dall'IFLA, che tendono alla realizzazione di coerenza e uniformità nella scelta della forma dei descrittori di soggetto.
    FRBR

    Functional Requirements for Bibliographic Records : Final Report / IFLA Study Group on the Functional Requirements for Bibliographic Records ; approved by the Standing Committee of the IFLA Section on Cataloguing. München : SAUR, 1998.

    Nel 1991 lo Standing Committee dell'IFLA Section of Cataloguing ha commissionato uno studio che definisse i requisiti funzionali delle registrazioni bibliografiche.
    Lo scopo di questo studio è delineare in termini definiti con chiarezza le funzioni svolte dalla registrazione bibliografica relativamente ai diversi media, le diverse applicazioni e le diverse necessità dell'utente. Lo studio intende coprire l'arco completo delle funzioni della registrazione bibliografica nel senso più vasto del termine, vale a dire non solo elementi descrittivi ma anche punti di accesso (nome, titolo, soggetto, ecc.), altri elementi di organizzazione (classificazione ecc.) e annotazioni.

    Lo studio intende appoggiarsi su basi teoriche solide e condivise (non a caso fa uso di modelli di analisi del tipo entità-relazione (E-R)), ma anche evitare ogni pregiudizio verso qualunque tipo di codice di catalogazione esistente.

    Dunque possiamo dire che FRBR è un modello concettuale generale dell'universo bibliografico/catalografico.

    Le funzioni utente del catalogo sono così definite:

    FRBR definisce tre categorie di entità, delle quali i gruppi due e tre esistono attraverso le loro relazioni con le entità del Gruppo 1.

    Le entità del Gruppo 1 sono l'opera, l'espressione, la manifestazione e l'item (la copia, l'esemplare). Esse costituiscono il fondamento del modello e della sua metodologia.

    Le entità del Gruppo 2 comprendono persone (individui) o enti (organizzazioni o gruppi di individui e/o organizzazioni). Queste entità rappresentano i responsabili della custodia intellettuale o artistica delle entità del Gruppo 1 e della produzione fisica e/o la distribuzione delle manifestazioni del Gruppo 1. Possono fungere anche da soggetti.

    Le entità del Gruppo 3 costituiscono un insieme aggiuntivo di entità che fungono da soggetto di lavori intellettuali: comprendono concetto (nozione o idea astratta), oggetto (una cosa materiale), evento (un'azione o un fatto), o luogo ( una localizzazione). Queste entità fungono di solito da soggetti delle opere. Possono essere correlate con una sola opera o una moltitudine di opere e ciascuna opera può essere correlata a varie entità del Gruppo 3.

    Gli obiettivi di FRBR vanno oltre la tradizionale attenzione alla descrizione bibliografica, e includono nella propria sfera anche un esame, per quanto meno sviluppato, dei punti di accesso o "elementi di organizzazione".

    Gli attributi logici delle entità persona, ente, concetto, oggetto, evento e luogo (quindi le entità dei gruppi 2 e 3) vengono presi in considerazione solo nella misura in cui sono rispecchiati in maniera tipica nel record bibliografico. FRBR in sostanza non analizza i dati aggiuntivi che di norma vengono riportati in un record di autorità né le relazioni fra quelle entità che sono in genere rispecchiate dall'apparato sindetico del catalogo. Per le entità del gruppo 3, praticamente individua solo l'attributo "termine", che definisce come la parola, frase, o gruppo di caratteri usati per dare un nome o designare un concetto, un oggetto, un evento o un luogo. FRBR riconosce che concetti, oggetti, eventi e luoghi possono essere designati da più termini, o da più varianti formali di un certo termine. Di norma le agenzie bibliografiche selezionano uno di questi termini come intestazione uniforme, mentre gli altri possono essere trattati come termini varianti.

    Comunque FRBR riconosce la necessità di estendere in futuro il modello in modo da trattare i dati relativi alle voci di autorità, tanto che l'appendice A cerca di stabilire una corrispondenza fra gli attributi logici delle entità e gli elementi dei dati previsti da ISBD, GARE e GSARE (Guidelines for subject authority and reference entries dell'IFLA).

    FRANAR

    Qualche approfondimento del modello FRBR sul versante della soggettazione è stato condotto all'interno del gruppo di lavoro su FRANAR (Functional requirements and numbering for authority records) dell'IFLA, incaricato dalla Divisione Controllo bibliografico dell'IFLA di definire i requisiti funzionali dei record degli archivi di autorità, e di studiare la fattibilità e gli usi dell'ISADN (International Standard Authority Data Number, un identificativo internazionale delle voci di autorità). Il Draft prodotto dal gruppo e sottoposto a commenti nel 2005 amplia e sviluppa le definizioni di tutte entità del modello concettuale FRBR, comprese quelle del Gruppo 3 (cioè quelle attinenti ai soggetti), arricchendole con elenchi esemplificativi.

    IME ICC (International Meeting of Experts on an International Cataloguing Code)

    Serie di incontri di esperti di codici catalografici promossi sempre dalla Sezione di Catalogazione dell'IFLA, con l'obbiettivo di definitire nuovi principi di catalogazione che sostituiscano i "principi di Parigi" (1961) e di promuovere lo sviluppo di un codice di catalogazione internazionale per la descrizione bibliografica e l'accesso. Il contesto di riferimento è sempre quello di FRBR.

    Frutto del primo meeting sono i "Principi di Francoforte" (2003), attualmente in versione draft, disponibili online anche in traduzione italiana.

    Nei successivi meetings (Buenos Aires 2004, Cairo 2005, Seoul 2006) il draft ha subito modifiche e aggiornamenti; informazioni e documenti a partire dal sito della Sezione Catalogazione IFLA.

    Attualmente i principi attengono quasi esclusivamente alla catalogazione descrittiva, ma teoricamente dovrebbero investire anche la semantica.

    Approfondimenti: Testo di FRBR (in formato PDF); Seminario FRBR (Firenze, 27-28 gennaio 2000); Pino Buizza, Indicizzazione per soggetto e FRBR, "Bibliotime", VI, 1 (marzo 2003); Principles Underlying Subject Heading Languages: An International Approach / Maria Inês Lopes; un ampio commento dei "Principi di Francoforte" anche in relazione alla catalogazione semantica è nella relazione di Pino Buizza, Verso nuovi principi e nuovi codici a Bibliocom 2004; Alberto Cheti, Il punto di vista del GRIS sulla "relazione di soggetto" in FRBR a Bibliocom 2004.

    Principles Underlying Subject Heading Languages

    Nel 1990 la Sezione Classificazione e indicizzazione della Divisione Controllo bibliografico dell'IFLA ha istituito un Gruppo di lavoro sui "Principi sottostanti ai linguaggi d'indicizzazione per soggetto", che ha condotto uno studio articolato in più fasi, avente i seguenti scopi:

    1. incentivare l'accesso per soggetto all'informazione a livello internazionale
    2. fornire uno strumento che faciliti lo sviluppo di linguaggi d'indicizzazione stabilendo cosa s'intende per un buon linguaggio e quali sono i suoi auspicabili principi di costruzione e applicazione
    3. promuovere la comunicazione fra diversi linguaggi, identificando le comunanze e fornendo una struttura per lo studio comparativo
    4. fornire un'impalcatura logico-teorica per particolari standard e linee guida per la costruzione o applicazione di linguaggi d'indicizzazione per soggetto.
    Per "principi" il gruppo ha inteso i "postulati fondamentali" che devono guidare la costruzione e l'applicazione di qualsiasi linguaggio d'indicizzazione per soggetto i cui obbiettivi siano il miglioramento di precisione e richiamo nella ricerca. Non quindi regole specifiche per la selezione del vocabolario o la costruzione di una semantica o di una sintassi.

    Risultato di questo studio è un documento, pubblicato a stampa nel 1999 ma in bozza già nel 1995, articolato come segue:

    L'ambito entro cui dovrebbero agire i "principi" è il più ampio possibile, e comprende sia linguaggi precoordinati sia postcoordinati. Vengono individuati 11 principi, di cui 9 definiti Principi di costruzione: e 2 Principi di applicazione:

    I linguaggi analizzati nella seconda parte dello studio sono di ambito generale (cioè non specialistici), e dotati di una qualche forma di precoordinazione; per la maggior parte sono gestiti dalle biblioteche nazionali e usati nella bibliografia del paese, ma anche adoperati da altri tipi di biblioteche. Molti di loro forniscono manuali o raccolte di regole e liste di intestazioni.
    Lo studio ha verificato che tutti i sistemi rispondono in generale ai principi di costruzione (soprattutto a quelli semantici, e soprattutto tramite regole e procedure, più che in maniera dichiarata), mentre i principi di applicazione sono meno espliciti o evidenti.

    Le conclusioni del gruppo di lavoro sono state le seguenti:

    Il progetto di rinnovamento del Soggettario

    Nel 2000 la Biblioteca nazionale centrale di Firenze, produttrice della BNI, ha affidato ad un gruppo di lavoro composto in larga parte da membri del GRIS uno Studio di fattibilità relativo al rinnovamento del Soggettario. Il Gruppo ha prodotto un documento articolato in sette proposte, e presentato a Firenze, nei giorni 5-6 Aprile 2001, nel corso di un seminario ad inviti finalizzato ad un confronto e una valutazione collettiva delle proposte.

    Le proposte avanzate dallo studio hanno riguardato i seguenti ambiti:

    1. la precisione del linguaggio: specificità dei termini e coestensione delle stringhe.

      La proposta prende le mosse dal riconoscimento della necessità di un linguaggio il più possibile selettivo, cioè in grado di escludere i documenti non pertinenti e selezionare quelli pertinenti. Questo risultato (aumento congiunto delle capacità di richiamo e di precisione) è ottenibile solo assegnando questi due obiettivi ai due differenti piani dell'indicizzazione, quello semantico e quello sintattico. La precisione nella rappresentazione dei singoli concetti dipende dalla specificità dei termini impiegati per esprimerli (specificità terminologica). La precisione nella rappresentazione delle relazioni sintattiche tra i concetti necessari alla definizione di un tema comporta invece la precoordinazione, la scelta di una forma di espressione chiara e non ambigua delle relazioni fra i termini (ordine di citazione+connettivi), la traduzione di un tema unitario in un'unica sequenza sintatticamente strutturata di termini (coestensione).
      Va quindi garantita nel nuovo Soggettario la massima ospitalità lessicale (la possibilità di comprendere nel vocabolario anche termini molto specialistici); il vocabolario va dotato di una coerente struttura semantica che funga da guida per la scelta del termine appropriato e per la gradazione del richiamo da parte dell'utente; deve essere infine abbandonata l'attuale prassi di rappresentare alcuni soggetti composti con più voci non coestese.

    2. le unità di base del linguaggio e le loro combinazioni: termini e stringhe vs. voce principale e suddivisioni.

      Le unità di base del linguaggio non devono essere quelle attualmente identificate come "voci principali" e "suddivisioni"; esse devono piuttosto essere i termini che esprimono concetti singoli o unitari, la cui combinazione, secondo le regole della sintassi, dà luogo alle stringhe di soggetto, che rappresentano i soggetti composti.
      La sequenza Voce principale - Suddivisioni generiche - Suddivisione geografica - Suddivisione cronologica - Suddivisione formale, attualmente usata dal Soggettario, non può assicurare un ordine di citazione standard, che è invece assicurato dalla combinazione di singoli termini secondo regole derivanti dalla loro funzione logico-sintattica.

    3. i metodi di controllo delle relazioni sintattiche.

      In un moderno sistema di indicizzazione, la forma preferita di precoordinazione è quella sintetica. A differenza di un linguaggio enumerativo, le cui espressioni (stringhe di soggetto) sono solamente quelle specificate in una lista di autorità, un linguaggio sintetico è un linguaggio che consente di generare stringhe di soggetto mediante la combinazione dei termini del vocabolario secondo regole di sintassi.
      Il Soggettario attuale, pur essendo teoricamente enumerativo (elenca anche le voci costruite, nelle quali le suddivisioni compaiono al seguito della voce principale e non costituiscono una voce a sé), è nell'uso ampiamente sintetico, e riconosce esplicitamente alle suddivisioni generiche elencate un carattere esemplificativo. Tuttavia, anche quando la costruzione di nuove voci è affidata all'indicizzatore, la loro correttezza è basata prevalentemente sull'autorità della lista, mediante istruzioni specifiche o l'analogia con voci in essa già presenti, piuttosto che sull'aderenza ad una regola generale.
      Nel Soggettario attuale, il problema della costruzione delle stringhe di soggetto assume fondamentalmente la forma della scelta della voce principale, intesa come "prima voce", "parola d'ordine", "soggetto", e la successiva aggiunta delle eventuali suddivisioni. La scelta della voce pricipale si basa, più che su un ordine di citazione prestabilito, su una valutazione del grado di importanza, di significatività dei concetti che costituiscono il soggetto: il concetto più importante, più significativo è espresso nella voce principale; gli altri, con funzione completiva, nelle suddivisioni. Il Soggettario non enuncia criteri di scelta riconducibili ad un principio unico, ma anzi adotta comportamenti diversi a seconda dei casi, per cui convivono criteri di tipo lessicale (p.e., la precedenza assegnata ai nomi di persona, che dà luogo al soggetto biografico), criteri di tipo semantico (p.e., la precedenza assegnata alle entità rispetto alle attività, ai processi e alle discipline), criteri di tipo sintattico (p.e., la priorità assegnata all'intero rispetto alle sue parti, o ad un individuo o una classe rispetto alle proprietà, agli aspetti, ai punti di vista, alle azioni che li riguardano).
      La scelta delle suddivisioni si basa sulla loro ricerca nella lista, dove si possono trovare due tipi di suddivisioni: quelle proprie di una voce principale e quelle libere, cioè applicabili a una o più categorie di voci principali. Negli ultimi due aggiornamenti del Soggettario, compaiono liste di suddivisioni generiche separate e corredate da note, rinvii e dall'indicazione del tipo di voce principale con cui sono usate.
      La proposta prevede di sostituire il modello sintattico attuale, che consiste nella distinzione "voce principale/suddivisione", col modello sintattico basato sullo "schema di ruoli", molto più efficace e produttivo, in base al quale è possibile costruire le regole sintattiche, secondo un'organizzazione gerarchica del tipo:

    4. le norme per l'ordine di citazione.

      In un linguaggio di tipo sintetico (quale dovrebbe diventare il nuovo Soggettario), la disposizione degli elementi significativi nella stringa (ordine di citazione) viene regolata da norme, la cui efficacia dipende in massima parte dal tipo di analisi categoriale e dai principi generali sui quali sono fondate.
      L'analisi categoriale è un'analisi degli elementi linguistici che definiscono il tema da indicizzare, volta all'identificazione della loro categoria di appartenenza: nel vecchio Soggettario le categorizzazioni più diffuse erano di tipo lessicale (nomi propri/nomi comuni) e/o semantico (entità/attività, concreto/astratto ecc.), che consentivano perciò di stabilire l'ordinamento sintattico solo di sequenze poco articolate, costituite da un numero di elementi non superiore al numero delle categorie individuate, ed appartenenti ognuno ad una categoria differente (un nome proprio ed uno comune, un concetto di entità ed uno di attività, un concetto concreto ed uno astratto).
      Per regolare la costruzione di strutture sintattiche di maggiore ampiezza ed articolazione è indispensabile quindi riferirsi non al significato, ma alla funzione logica degli elementi della stringa (scopo/strumento, azione/oggetto, azione/agente, intero/parte ecc.). L'analisi categoriale di tipo logico-funzionale è modulare ed esaustiva, e permette di applicare i medesimi criteri nella rappresentazione di temi di diversa complessità, garantendo, con la formulazione di stringhe sempre coestese, la massima espressività del linguaggio, e livelli elevati di predittività e coerenza.
      Ai due diversi criteri di analisi categoriale corrispondono principi sintattici differenti. In relazione alle categorizzazioni lessicali e semantiche sono stati infatti stabiliti principi di ordinamento che attengono al significato degli elementi da disporre nella stringa, come il principio della concretezza decrescente, formulato da Ranganathan, e quello del concetto più significativo, formulato da Coates. Alle categorizzazioni logico-funzionali sono invece associati due principi sintattici basati esclusivamente sulle relazioni che uniscono i concetti nella definizione di un tema: il principio della relazione uno a uno (i concetti devono essere citati nella stringa in modo che sia preservata ed evidenziata, per quanto possibile in un ordinamento lineare, ogni relazione sintattica diretta) ed il principio della dipendenza logica (tra due concetti deve essere citato per primo quello che costituisce il presupposto logico della funzione svolta dall'altro). Da quest'ultimo principio discende quello della costruzione passiva, e quindi la norma di citare sempre come concetto chiave (o voce principale) il concetto verso il quale è diretta un'azione o che è obiettivo di una funzione agentiva o strumentale.

    5. le norme per il controllo della morfologia dei termini.

      Gli aspetti del controllo terminologico presi in considerazione in questa proposta sono il numero, la scomposizione e la disambiguazione. La proposta è costruita tenendo conto di quanto previsto dalla norma ISO 2788-1986 (sulla costruzione dei thesauri) in maniera abbastanza fedele, anche se con qualche scostamento. Si tenga conto che il Soggettario attuale manca di principi e criteri omogenei per il controllo della morfologia dei termini, anche perché essi non erano ancora stati formulati in maniera esplicita e completa al momento della sua pubblicazione (1956).

    6. i metodi di controllo delle relazioni semantiche.

      La formalizzazione del vocabolario e delle relazioni semantiche è un principio irrinunciabile dei linguaggi di indicizzazione. Essa è riconducibile ad alcune regole fondamentali:

      Il controllo terminologico implementato nell'attuale Soggettario riduce a due soli casi tutte le possibili relazioni semantiche tra termini: la relazione tra sinonimi (o relazione di equivalenza, vedi e il reciproco *) e una seconda relazione (vedi anche e il reciproco **), deputata ad esprimere sia le relazioni verso il basso e verso l'alto (la relazione gerarchica dei thesauri) sia quelle trasversali (la relazione associativa dei thesauri).
      La proposta propugna per il nuovo Soggettario l'adozione del modello a tre relazioni (quello tipico dei thesauri), in quanto dotato di una maggiore ricchezza e flessibilità nella rappresentazione delle relazioni semantiche, e sostanzialmente compatibile con il modello a due relazioni (mentre non è vero il contrario).

    7. la struttura di una voce del vocabolario.

      La proposta è più quella di un record di controllo semantico che di una vera e propria voce di vocabolario, contiene perciò anche elementi per il controllo gestionale e della visualizzazione.
      Il record risulta così articolato in tre parti:

    Dopo un fase di ulteriori approfondimenti, seminari, e confronti con studiosi ed esperti italiani e stranieri, la fase di studio si è conclusa nel 2002 con la stesura di un Progetto preliminare, la messa a punto dei principali aspetti organizzativi (ad es. lo smantellamento del vecchio sistema, la definizione dei costi, le modalità per realizzare il lavoro secondo piani a breve e medio termine, ecc.), e la pubblicazione in volume di tutti i testi documentari e progettuali sotto il titolo di Per un nuovo Soggettario (Bibliografica 2002).

    Nel 2004 il Progetto e i suoi avanzamenti sono stati sintetizzati in un documento intitolato Il nuovo Soggettario italiano: dallo studio al progetto, a cura di Anna Lucarelli, Leda Bultrini e Alberto Cheti, disponibile online sul sito della BNCF.

    Il documento illustra le principali scelte metodologiche operate dal progetto:

    le componenti architetturali del nuovo Soggettario: alcuni aspetti qualificanti delle future "Norme": le principali caratteristiche del Vocabolario e la struttura del record (termine e suo corredo semantico, di applicazione, gestionale):

    Approfondimenti: Alberto Cheti, Il punto sul GRIS e gli sviluppi attuali, "Bibliotime", VI, 1 (marzo 2003); Anna Lucarelli, La revisione del Soggettario, "Bibliotime", VI, 1 (marzo 2003); Anna Lucarelli, Fra principi internazionali e tradizione europea: sviluppi italiani nell'indicizzazione per soggetto a Bibliocom 2004.

    Il progetto "Opac Semantici"

    Svolta fra 2003 e 2004, la ricerca "OPAC semantici" ha analizzato più di 150 cataloghi italiani dal punto di vista degli accessi semantici, allo scopo di rispondere a domande come:

    I dati raccolti hanno permesso di definire un "indice di semanticità" dei cataloghi, che dovrebbe esprimere l'efficacia degli attuali cataloghi nel supportare ricerche intorno al contenuto concettuale dei documenti.

    La "scoperta", non troppo inattesa, è che gli opac sfruttano solo la mimima parte delle potenzialità messe a disposizione dall'indicizzazione. Tipicamente, ad esempio, non implementano la "ricerca in due fasi" (per termine e per stringa di soggetto) auspicata da Gris e dallo studio per il nuovo Soggettario, né si può effettuare una ricerca o un browsing sugli equivalenti verbali delle notazioni di classificazione. Nell'opac del polo bolognese:

    Esempi a confronto su BO e FI:

    Nel corso del 2006 la ricerca è stata estesa agli opac delle biblioteche nazionali e in quelli a copertura nazionale.

    Nell'ottobre 2006 il gruppo GRIS, in collaborazione con ISKO Italia, ha organizzato un seminario dedicato alla gestione e al recupero per soggetto nei cataloghi in rete delle biblioteche, in cui il dibattito sugli opac semantici è si allargato al confronto con i principali fornitori presenti sul mercato italiano.

    Approfondimenti: sito del progetto Opac semantici; Claudio Gnoli, Riccardo Ridi, Giulia Visintin, Di che parla questo catalogo? Un'indagine sugli accessi semantici negli opac italiani, "Biblioteche oggi", 22 (2004), 8, p 23-29; Riccardo Ridi, Claudio Gnoli, Giulia Visintin, Come vogliamo chiamarli? Operatori booleani e tecniche di information retrieval negli opac italiani, "Bibliotime", VII, 3 (novembre 2004); Claudio Gnoli, Resoconto Seminario GRIS.

    "OPAC 2.0"

    Detti anche opac nextgen, sono opac di nuova concezione, che risentono molto dell'ibridazione con i più evoluti motori di ricerca e con le migliori piattaforme delle librerie e degli editori online. La denominazione fa riferimento al cosiddetto Web 2.0 (da cui gemmano anche Library 2.0, Office 2.0, ecc.), cioè un web più semantico, dinamico, interattivo, partecipativo, aperto, interoperabile, facile "da leggere e da scrivere" sia per gli utenti che per i software.

    Aquabrowser

    Endeca

    Summa

    Evergreen

    RedLightGreen

    Approfondimenti: Voce Web 2.0 su Wikipedia.it.

    L'indicizzazione nel contesto digitale

    Il continuo aumento della informazione a testo pieno disponibile online rende sempre più pressante la necessità di disporre di procedure attraverso le quali ottenere per via algoritmica (cioè attraverso programmi) un risultato paragonabile a quello che otterrebbe un indicizzatore esperto attraverso la comprensione dei documenti.

    Definiamo due macrocontesti di azione:

    All'interno del primo contesto si stanno sperimentando tecniche che derivano più o meno esplicitamente dalle vecchie tecniche di indicizzazione automatizzata, integrate però dal riconoscimento della necessità di costruire una "impalcatura semantica" che superi i problemi associati alle tecniche di riconoscimento lessicale "esatto". Ne sono esempi la LSI (latent semantic indexing), una famiglia di metodi di indicizzazione e retrieval che organizzano l'informazione in uno "spazio semantico" (che utilizza i modelli di spazio vettoriale) all'interno del quale termini e documenti strettamente associati da un punto di vista concettuale sono spazialmente vicini. Al momento dell'interrogazione, attraverso l'elaborazione dei termini usati per la query si identifica un punto nello spazio semantico e si selezionano i documenti collocati nella zona circostante a quel punto. E' possibile anche implementare meccanismi di ranking basandosi sulla maggiore o minore distanza nello spazio fra documenti e query, nonché implementare tecniche di retroazione sulla rilevanza, utilizzando i termini dei documenti pertinenti selezionati per rendere più efficace la query.

    L'indicizzazione (a diversi gradi di automatizzazione) e il retrieval che agiscono all'interno dell'intero WWW pongono naturalmente problemi ancora più complessi.

    Storicamente, i primi strumenti di orientamento sono state le raccolte di risorse per materia (indici manuali per classi, subject tree, per es. Yanoff, il primo Yahoo, che ha comunque tuttora come struttura principale quella classificata).

    Si trattava di schemi di classificazione su base disciplinare, mantenuti da un singolo o un gruppo di persone, sulla base di un'attività "umana e manuale" di ricerca, valutazione, aggiornamento e strutturazione delle risorse in rete. Sono stati gli unici strumenti di accesso per soggetto alle risorse durante tutta la prima "pioneristica" fase di WWW, durante la quale l'entità delle risorse era tale da rendere possibile padroneggiarle con metodi manuali.

    In alcuni casi non avevano un vero e proprio andamento classificatorio, ma erano una semplice "flat list" in cui erano compresenti allo stesso unico livello gerarchico sia discipline che soggetti. Es.: The WWW Virtual Library.

    In una seconda fase si sono poi affermati:

    Quel che sta accadendo oggi, e uno sguardo al futuro: Conclusioni
    Siamo sicuramente in una fase di transizione e di grande ibridazione delle categorie, ma è ormai chiaro a tutti e non solo agli information professionals che l'approccio lessicale "puro" per l'indicizzazione e la ricerca sulle risorse elettroniche non è più sostenibile, e che le strade da percorrere, pur con tutti i diversi gradi di automazione, di modellizzazione, di ricollocazione della struttura semantica (se all'interno o all'esterno delle risorse, con quale codifica, ecc.) che possono essere sorretti dalla ricerca, dagli standard e dalle tecnologie, sono quelle dell'approccio semantico, dell'approccio biblioteconomico ai problemi di organizzazione della conoscenza, un approccio adattato all'ambiente elettronico, ma che recupera i concetti di rappresentazione strutturata e sintetica degli oggetti informativi che sono propri della nostra professione.


    Approfondimenti: Metadati e indicizzazione semantica, in 3 parti, di Ingo Bogliolo; Guide per la ricerca in Internet, di Mariateresa Pesenti; DoIS; FAST: Faceted Application of Subject Terminology.


    A cura di S. Spinelli, ultimo aggiornamento 23.11.2006.