Macerata, 21.11.2006
Introduzione e Definizioni |
Un po' di contesto |
Fra gli obbiettivi di una biblioteca (e non solo...):
Indicizzazione |
Di cosa parliamo quando parliamo di "indicizzazione".
1. Serrai (1974)
Indicizzare vuol dire assegnare uno o più caratteri di riconoscimento o
di recupero ad un documento. Questi caratteri possono esprimersi come
simboli di una classe o sottoclasse in un sistema classificatorio, o
come dei soggetti, ossia singole parole o combinazioni di parole, in un
catalogo, detto appunto per soggetti.
2. Maltese (1982)
Indicizzare un documento significa indicarne il contenuto dal punto di
vista del soggetto, di ciò di cui si parla, dare del documento una
descrizione da indice, cioè una descrizione molto breve del suo
soggetto.
3. Caffo (1988)
L'indicizzazione è la tecnica per costruire accessi attraverso il
contenuto semantico dei documenti, distinti da altre forme di accesso,
e comprende sia il processo di analisi concettuale del documento, sia
la traduzione del contenuto informazionale del documento in un
linguaggio d'indicizzazione.
4. Petrucciani (1984)
L'indicizzazione consiste nell'attribuire ai documenti una
rappresentazione contratta, più o meno strutturata, che permette una
esplorazione selettiva non praticabile sui documenti stessi.
5. Petrucciani (1991)
L'indicizzazione consiste nell'attribuire ai documenti, per il
recupero, delle brevi "rappresentazioni" indicative del loro contenuto
(voci d'indice, intestazioni di soggetto, simboli di classificazione,
parole chiave, ecc.). In genere, contemporaneamente, viene ad essi
attribuita una descrizione bibliografica, cioè una "carta d'identità"
contenente i propri connotati.
6. Cheti (MIAC, 1996)
E' l'operazione mediante la quale si creano gli accessi al contenuto
semantico del documento. Consta delle fasi di analisi concettuale e di
traduzione dei concetti individuati e delle relazioni logiche
individuate nei termini e nelle forme proprie del linguaggio di
indicizzazione prescelto.
7. Bogliolo (1998)
Indicizzare significa creare indici, cioè un'organizzazione sistematica
di oggetti simbolici (parole, frasi, codici alfa-numerici) finalizzati
a consentire a un utente di trovare l'informazione relativa a un
documento ospitato in un determinato archivio.
8. Gnoli (2000)
Rappresentazione sintetica [dei contenuti] dei documenti mediante l'attribuzione di indici ricercabili.
Gli standard:
1. ISO 5127/5 (Vocabolario, 1981)
L'indicizzazione
è l'azione mirante a rappresentare i risultati dell'analisi di un
documento con gli elementi di un linguaggio naturale o di un linguaggio
documentario, generalmente per facilitarne il reperimento.
2. ISO 5963 (Metodi per l'analisi dei documenti..., 1985)
L'indicizzazione è l'azione di descrivere o identificare un documento nei termini del suo contenuto concettuale.
Sistema d'Indicizzazione |
Insieme delle procedure per l'organizzazione e la rappresentazione del contenuto dei documenti (comprende software di gestione).
Linguaggio d'Indicizzazione o Linguaggio Documentario |
Codice attraverso il quale si rappresenta e trasmette il contenuto informazionale del documento, allo scopo di renderne possibile il recupero.
Strumento per la rappresentazione coerente, formalizzata e sintetica del contenuto concettuale dei documenti, funzionale alla segnalazione e al reperimento dei documenti stessi [GRIS].
Insieme di termini (semantica) ammessi per descrivere il contenuto dei documenti o per organizzare una ricerca su di essi, e insieme di regole (sintassi) che stabiliscono l'ordine e le modalità di citazione dei termini.
Sistema Documentario |
Contesto in cui si effettuano le procedure di trattamento della documentazione (Biblioteca, Centro di documentazione...) e di ricerca e reperimento dell'informazione.
Information retrieval |
Insieme di tecniche per il reperimento dei documenti rilevanti rispetto ad una determinata esigenza informativa dell'utente.
Criteri di valutazione dei risultati della ricerca: rilevanza, richiamo e precisione.
Grado di Richiamo |
Numero di documenti rilevanti recuperati rispetto al numero totale di documenti rilevanti della biblioteca.
Formula di calcolo:
GR = docc. rilevanti recuperati : totale docc. rilevanti
Grado di Precisione |
Numero di documenti rilevanti rispetto al numero di documenti recuperati.
Formula di calcolo:
GP = docc. rilevanti recuperati : totale docc. recuperati
Rumore |
Documenti recuperati non rilevanti.
Futility point |
Quantità massima di documenti fra i quali un utente è disposto a cercare quelli che effettivamente rispondono alle sue esigenze informative. Di solito stimato attorno a 30.
Il Linguaggio d'Indicizzazione |
Benchè possa essere utilizzato come linguaggio d'indicizzazione anche il linguaggio naturale, di norma per linguaggio d'indicizzazione s'intende un linguaggio controllato o formalizzato o artificiale, con il quale si faccia indicizzazione per concetti e non indicizzazione per termini.
Linguaggio controllato è un linguaggio all'interno del quale sia esercitato il controllo degli equivalenti semantici e sintattici (della sinonimia semantica e sintattica), e cioè:
Quindi fare indicizzazione per concetti (o indicizzazione assegnata) significa:
L'indicizzazione per concetti è perciò impegnativa in fase di input (cioè di indicizzazione del documento), ma economica in fase di output (cioè di ricerca).
Invece fare indicizzazione per termini (o indicizzazione derivata) significa:
L'indicizzazione per termini è perciò economica in fase di input (cioè di indicizzazione del documento), ma impegnativa in fase di output (cioè di ricerca).
Come il linguaggio naturale, il linguaggio d'indicizzazione è costituito da vocabolario (insieme di termini) e sintassi (insieme di regole di combinazione dei termini) attraverso i quali si dà un nome ai concetti, e cioè:
Si può distinguere fra vocabolario d'indicizzazione (costituito dai termini preferiti, cioè effettivamente attribuibili al documento per la sua indicizzazione) e vocabolario d'accesso (costituito sia dai termini preferiti che dai termini non preferiti, cioè dai termini che non possono essere utilizzati per l'indicizzazione e che rimandano a termini preferiti), che può essere usato dall'utente in fase di ricerca e che lo indirizza verso i termini del vocabolario d'indicizzazione.
Linguaggi d'Indicizzazione |
Enumerativi |
Sono quelli che enumerano tutti e soli i termini o le combinazioni di termini (quindi sia soggetti semplici che soggetti composti) che l'indicizzatore può usare. In generale sono:
Esempi: CDD, [CDU], Soggettario, LCSH
Analitico-Sintetici |
Sono quelli che elencano solo soggetti semplici, che vanno poi combinati secondo appropriate regole sintattiche. In generale sono:
Esempi: Classificazioni a faccette, Bliss, Thesauri (propriamente "vocabolari")
Precoordinati |
Sono quelli nei quali i termini che esprimono i concetti (A, B, C) vengono coordinati (cioè combinati secondo regole sintattiche che ne determinano l'ordine di citazione) prima, cioè al momento dell'indicizzazione.
La stringa che ne risulta è collegata nel suo insieme al documento e dà un'immagine complessiva del contenuto del documento.
Esempi: CDD, CDU, Soggettario
Postcoordinati |
Sono quelli in cui all'atto dell'indicizzazione i termini vengono collegati direttamente al documento e non fra di loro. La coordinazione viene fatta solo al momento della ricerca da parte dell'utente, attraverso strumenti come gli operatori booleani.
Ogni termine dà accesso al documento ma non ne descrive il contenuto complessivo.
Esempi: Thesauri non integrati con norme sintattiche, Parole chiave.
Approfondimenti: Risorse on-line per l'indicizzazione; Introduzione ai thesauri; Thesaurus regionale toscano; Catalogo della Biblioteca della Giunta regionale toscana; Catalogo della Charles W. Cushman Photograph Collection (Indiana University), con thesaurus integrato nella ricerca per soggetto; introd. alla CDD su Alice; la pagina della Classificazione Decimale Dewey della LIUC; ricerca per CDD nell'opac UniBo; introd. alla CDU su Alice; pagina CDU Online. Per fare una pausa: la finalissima di "Lotta di classe" di Kurzweil. Ma il 616.85270086947095335 esiste davvero?.
Operazioni fondamentali dell'indicizzazione |
1. Analisi concettuale |
Identificazione del contenuto concettuale del documento per poterne poi organizzare la rappresentazione attraverso i codici del linguaggio documentario.
Fonte normativa: ISO 5963 del 1981: Methods for examining documents, determining their subjects and selecting indexing terms, in 9 sezioni:
In dettaglio:
Le principali fonti per l'esame del documento e l'accertamento del contenuto sono:
titolo, sottotitolo, indice, sommario, introduzione, conclusioni, riferimenti bibliografici, illustrazioni, fonti esterne.
L'individuazione dei concetti secondo il procedimento di 'scomposizione del soggetto' viene guidata da una serie di domande che costituiscono la cosiddetta lista di controllo:
2. Traduzione nel linguaggio d'indicizzazione |
Traduzione dei termini usati nell'analisi concettuale nei termini o segni del linguaggio documentario.
2.1 Scelta dei termini |
Scelta dei termini che, all'interno del vocabolario del linguaggio d'indicizzazione adottato, sono deputati a rappresentare univocamente i concetti identificati in fase di analisi concettuale.
2.2 Costruzione della stringa |
Ordinamento dei termini secondo l'ordine di citazione previsto dal linguaggio adottato.
Principi fondamentali dell'indicizzazione per soggetto |
Focalizziamo la nostra attenzione sull'indicizzazione per soggetto, intendendo per questa:
la rappresentazione coerente, formalizzata e sintetica del contenuto concettuale dei documenti, funzionale alla segnalazione e al reperimento dei documenti stessi, per mezzo di un linguaggio di indicizzazione verbale di tipo precoordinato, costituito da:un insieme controllato di termini scelti dalla lingua naturale per esprimere univocamente i singoli concetti (vocabolario) un insieme di norme che regolano la combinazione dei termini in sequenze sintatticamente unitarie (sintassi).
I principi fondamentali dell'indicizzazione per soggetto sono principi che sottostanno all'attività d'indicizzazione:
Uniformità e unità |
Uniformità: all'interno di un certo linguaggio, un concetto o combinazione di concetti è sempre rappresentato da un solo termine o sequenza di termini (controllo della sinonimia).
Unità: all'interno di un certo linguaggio, un termine o sequenza di termini rappresenta sempre un solo concetto o combinazione di concetti (controllo della polisemia).
Il controllo della sinonimia si realizza in campo semantico attraverso la scelta di un termine preferito e l'approntamento di rinvii dai sinonimi e quasi-sinonimi, in campo sintattico attraverso l'applicazione di una ordine di citazione uniforme dei termini nella costruzione delle stringhe. In caso di più ordini di citazione ammessi, va effettuata la scelta di un ordine di citazione preferito e l'approntamento di rinvii dagli altri.
Il controllo della polisemia avviene precisando, nel caso di termini omonimi o polisemici, il preciso significato col quale il termine è utilizzato all'interno del linguaggio d'indicizzazione.
Esaustività |
L'analisi concettuale dovrebbe portare all'individuazione di tutti i concetti e delle relazioni che definiscono esattamente il soggetto del documento.
E' una caratteristica che si realizza diversamente a seconda che si agisca nell'ambito della sommarizzazione o dell'indicizzazione approfondita, che differiscono per numero e tipologia di concetti identificati come essenziali per la descrizione del soggetto ed effettivamente tradotti nei termini del linguaggio d'indicizzazione.
Sommarizzazione (identificazione del soggetto complessivo) vs indicizzazione approfondita (estrazione di tutti i concetti ritenuti importanti).
In un linguaggio che esprima in forma di descrizione sintetica il contenuto del documento, l'indicizzatore dovrebbe identificare tutti i concetti essenziali per esprimere il soggetto, ossia il tema complessivo o centrale o tema di base del documento.
Coestensione |
La descrizione del soggetto del documento dovrebbe essere tradotto in una sola stringa
che contenga tutti gli elementi indispensabili ad individuare il
soggetto, e non in più stringhe, solo dalla cui unione si evince il
soggetto complessivo.
Es.: soggetti di: Guida alla catalogazione in SBN : libro antico in Opac LC (lanciare ricerca precompilata e guardare record completo - scheda soggetti) e in Opac Unibo.
Specificità |
Precisione con cui un particolare concetto identificato nel soggetto del documento è rappresentato dal linguaggio d'indicizzazione.
I concetti dovrebbero essere espressi nel modo più specifico possibile, specie se il vocabolario è strutturato in modo tale da garantire l'accesso anche partendo da termini più generali.
Il problema è particolarmente sentito nel caso delle classificazioni, che raramente arrivano ad un livello di dettaglio sufficiente da garantire un buon grado di specificità per le biblioteche specializzate.
Coerenza |
Omogeneità di trattamento da parte dello stesso indicizzatore in tempi diversi, o da parte di diversi indicizzatori.
E' un requisito dipendente dall'indicizzatore o dal gruppo di indicizzatori, e dalla qualità degli strumenti di indicizzazione.
Accessibilità |
E' un requisito dipendente dal software del sistema d'indicizzazione, che dovrebbe prevedere una molteplicità di accessi alle rappresentazioni del contenuto semantico dei documenti.
Ad es.:
Criteri e metodi della teoria moderna dell'indicizzazione |
La teoria moderna dell'indicizzazione ha elaborato una serie di criteri e di metodi volti a garantire il rispetto dei principi fondamentali dell'indicizzazione.
I più importanti:
definizione/distinzione delle relazioni semantiche e delle relazioni sintattiche |
Le relazioni semantiche o a priori sono quelle che un termine intrattiene con altri termini in virtù del proprio significato, sono universalmente valide ed indipendenti dal documento cui il termine è assegnato.
Sono le relazioni esplicitate dai thesauri, dagli schemi di classificazione (parzialmente), dalla struttura sindetica (richiami - v.a., ** - e rinvii - v. * -) dei soggettari.
Le relazioni sintattiche o a posteriori sono quelle che un termine intrattiene con gli altri termini della stessa stringa in virtù dei rapporti determinati dal soggetto del documento cui è assegnata la stringa, e sono valide solo nel contesto di quella stringa.
Sono le relazioni esplicitate dalle stringhe di soggetto.
uso dell'analisi categoriale per l'analisi delle relazioni semantiche e sintattiche |
Consiste nell'analisi dei termini in base:
L'analisi categoriale aiuta l'indicizzatore a:
ordine di citazione e scelta della costruzione passiva |
L'ordine di citazione si ispira in genere a due criteri:
Alcuni fra i più noti ordini di citazione:
Il panorama internazionale |
GSARE |
Guidelines for subject authority and reference entries / IFLA. - München : Saur, 1993.
Si tratta di linee guida per la creazione e la manutenzione di liste di voci di autorità di soggetto (analogamente a quanto fa GARE per l'authority control in generale), emanate dall'IFLA, che tendono alla realizzazione di coerenza e uniformità nella scelta della forma dei descrittori di soggetto.FRBR |
Functional Requirements for Bibliographic Records : Final Report / IFLA Study Group on the Functional Requirements for Bibliographic Records ; approved by the Standing Committee of the IFLA Section on Cataloguing. München : SAUR, 1998.
Nel 1991 lo Standing Committee dell'IFLA Section of Cataloguing ha commissionato uno studio che definisse i requisiti funzionali delle registrazioni bibliografiche.Lo studio intende appoggiarsi su basi teoriche solide e condivise (non a caso fa uso di modelli di analisi del tipo entità-relazione (E-R)), ma anche evitare ogni pregiudizio verso qualunque tipo di codice di catalogazione esistente.
Dunque possiamo dire che FRBR è un modello concettuale generale dell'universo bibliografico/catalografico.
Le funzioni utente del catalogo sono così definite:
FRBR definisce tre categorie di entità, delle quali i gruppi due e tre esistono attraverso le loro relazioni con le entità del Gruppo 1.
Le entità del Gruppo 1 sono l'opera, l'espressione, la manifestazione e l'item (la copia, l'esemplare). Esse costituiscono il fondamento del modello e della sua metodologia.
Le entità del Gruppo 2 comprendono persone (individui) o enti (organizzazioni o gruppi di individui e/o organizzazioni). Queste entità rappresentano i responsabili della custodia intellettuale o artistica delle entità del Gruppo 1 e della produzione fisica e/o la distribuzione delle manifestazioni del Gruppo 1. Possono fungere anche da soggetti.
Le entità del Gruppo 3 costituiscono un insieme aggiuntivo di entità che fungono da soggetto di lavori intellettuali: comprendono concetto (nozione o idea astratta), oggetto (una cosa materiale), evento (un'azione o un fatto), o luogo ( una localizzazione). Queste entità fungono di solito da soggetti delle opere. Possono essere correlate con una sola opera o una moltitudine di opere e ciascuna opera può essere correlata a varie entità del Gruppo 3.
Gli obiettivi di FRBR vanno oltre la tradizionale attenzione alla descrizione bibliografica, e includono nella propria sfera anche un esame, per quanto meno sviluppato, dei punti di accesso o "elementi di organizzazione".
Gli attributi logici delle entità persona, ente, concetto, oggetto, evento e luogo (quindi le entità dei gruppi 2 e 3) vengono presi in considerazione solo nella misura in cui sono rispecchiati in maniera tipica nel record bibliografico. FRBR in sostanza non analizza i dati aggiuntivi che di norma vengono riportati in un record di autorità né le relazioni fra quelle entità che sono in genere rispecchiate dall'apparato sindetico del catalogo. Per le entità del gruppo 3, praticamente individua solo l'attributo "termine", che definisce come la parola, frase, o gruppo di caratteri usati per dare un nome o designare un concetto, un oggetto, un evento o un luogo. FRBR riconosce che concetti, oggetti, eventi e luoghi possono essere designati da più termini, o da più varianti formali di un certo termine. Di norma le agenzie bibliografiche selezionano uno di questi termini come intestazione uniforme, mentre gli altri possono essere trattati come termini varianti.
Comunque FRBR riconosce la necessità di estendere in futuro il modello in modo da trattare i dati relativi alle voci di autorità, tanto che l'appendice A cerca di stabilire una corrispondenza fra gli attributi logici delle entità e gli elementi dei dati previsti da ISBD, GARE e GSARE (Guidelines for subject authority and reference entries dell'IFLA).
FRANAR |
Qualche approfondimento del modello FRBR sul versante della soggettazione è stato condotto all'interno del gruppo di lavoro su FRANAR (Functional requirements and numbering for authority records) dell'IFLA, incaricato dalla Divisione Controllo bibliografico dell'IFLA di definire i requisiti funzionali dei record degli archivi di autorità, e di studiare la fattibilità e gli usi dell'ISADN (International Standard Authority Data Number, un identificativo internazionale delle voci di autorità). Il Draft prodotto dal gruppo e sottoposto a commenti nel 2005 amplia e sviluppa le definizioni di tutte entità del modello concettuale FRBR, comprese quelle del Gruppo 3 (cioè quelle attinenti ai soggetti), arricchendole con elenchi esemplificativi.
IME ICC (International Meeting of Experts on an International Cataloguing Code) |
Serie di incontri di esperti di codici catalografici promossi sempre dalla Sezione di Catalogazione dell'IFLA, con l'obbiettivo di definitire nuovi principi di catalogazione che sostituiscano i "principi di Parigi" (1961) e di promuovere lo sviluppo di un codice di catalogazione internazionale per la descrizione bibliografica e l'accesso. Il contesto di riferimento è sempre quello di FRBR.
Frutto del primo meeting sono i "Principi di Francoforte" (2003), attualmente in versione draft, disponibili online anche in traduzione italiana.
Nei successivi meetings (Buenos Aires 2004, Cairo 2005, Seoul 2006) il draft ha subito modifiche e aggiornamenti; informazioni e documenti a partire dal sito della Sezione Catalogazione IFLA.
Attualmente i principi attengono quasi esclusivamente alla catalogazione descrittiva, ma teoricamente dovrebbero investire anche la semantica.
Approfondimenti: Testo di FRBR (in formato PDF); Seminario FRBR (Firenze, 27-28 gennaio 2000); Pino Buizza, Indicizzazione per soggetto e FRBR, "Bibliotime", VI, 1 (marzo 2003); Principles Underlying Subject Heading Languages: An International Approach / Maria Inês Lopes; un ampio commento dei "Principi di Francoforte" anche in relazione alla catalogazione semantica è nella relazione di Pino Buizza, Verso nuovi principi e nuovi codici a Bibliocom 2004; Alberto Cheti, Il punto di vista del GRIS sulla "relazione di soggetto" in FRBR a Bibliocom 2004.
Principles Underlying Subject Heading Languages |
Nel 1990 la Sezione Classificazione e indicizzazione della Divisione Controllo bibliografico dell'IFLA ha istituito un Gruppo di lavoro sui "Principi sottostanti ai linguaggi d'indicizzazione per soggetto", che ha condotto uno studio articolato in più fasi, avente i seguenti scopi:
Risultato di questo studio è un documento, pubblicato a stampa nel 1999 ma in bozza già nel 1995, articolato come segue:
I linguaggi analizzati nella seconda parte dello studio sono di
ambito generale (cioè non specialistici), e dotati di una qualche forma
di precoordinazione; per la maggior parte sono gestiti dalle
biblioteche nazionali e usati nella bibliografia del paese, ma anche
adoperati da altri tipi di biblioteche. Molti di loro forniscono
manuali o raccolte di regole e liste di intestazioni.
Lo studio ha verificato che tutti i sistemi rispondono in generale ai
principi di costruzione (soprattutto a quelli semantici, e soprattutto
tramite regole e procedure, più che in maniera dichiarata), mentre i
principi di applicazione sono meno espliciti o evidenti.
Le conclusioni del gruppo di lavoro sono state le seguenti:
Il progetto di rinnovamento del Soggettario |
Nel 2000 la Biblioteca nazionale centrale di Firenze, produttrice della BNI, ha affidato ad un gruppo di lavoro composto in larga parte da membri del GRIS uno Studio di fattibilità relativo al rinnovamento del Soggettario. Il Gruppo ha prodotto un documento articolato in sette proposte, e presentato a Firenze, nei giorni 5-6 Aprile 2001, nel corso di un seminario ad inviti finalizzato ad un confronto e una valutazione collettiva delle proposte.
Le proposte avanzate dallo studio hanno riguardato i seguenti ambiti:
La
proposta prende le mosse dal riconoscimento della necessità di un
linguaggio il più possibile selettivo, cioè in grado di escludere i
documenti non pertinenti e selezionare quelli pertinenti. Questo
risultato (aumento congiunto delle capacità di richiamo e di
precisione) è ottenibile solo assegnando questi due obiettivi ai due
differenti piani dell'indicizzazione, quello semantico e quello
sintattico. La precisione nella rappresentazione dei singoli concetti
dipende dalla specificità dei termini impiegati per esprimerli
(specificità terminologica). La precisione nella rappresentazione delle
relazioni sintattiche tra i concetti necessari alla definizione di un
tema comporta invece la precoordinazione, la scelta di una forma di
espressione chiara e non ambigua delle relazioni fra i termini (ordine
di citazione+connettivi), la traduzione di un tema unitario in un'unica
sequenza sintatticamente strutturata di termini (coestensione).
Va quindi garantita nel nuovo Soggettario la massima ospitalità
lessicale (la possibilità di comprendere nel vocabolario anche termini
molto specialistici); il vocabolario va dotato di una coerente
struttura semantica che funga da guida per la scelta del termine
appropriato e per la gradazione del richiamo da parte dell'utente; deve
essere infine abbandonata l'attuale prassi di rappresentare alcuni
soggetti composti con più voci non coestese.
Le unità di base del linguaggio non devono essere quelle attualmente
identificate come "voci principali" e "suddivisioni"; esse devono
piuttosto essere i termini che esprimono concetti singoli o unitari, la
cui combinazione, secondo le regole della sintassi, dà luogo alle
stringhe di soggetto, che rappresentano i soggetti composti.
La sequenza Voce principale - Suddivisioni generiche - Suddivisione geografica - Suddivisione cronologica - Suddivisione formale,
attualmente usata dal Soggettario, non può assicurare un ordine di
citazione standard, che è invece assicurato dalla combinazione di
singoli termini secondo regole derivanti dalla loro funzione
logico-sintattica.
In
un moderno sistema di indicizzazione, la forma preferita di
precoordinazione è quella sintetica. A differenza di un linguaggio
enumerativo, le cui espressioni (stringhe di soggetto) sono solamente
quelle specificate in una lista di autorità, un linguaggio sintetico è
un linguaggio che consente di generare stringhe di soggetto mediante la
combinazione dei termini del vocabolario secondo regole di sintassi.
Il Soggettario attuale, pur essendo teoricamente enumerativo (elenca
anche le voci costruite, nelle quali le suddivisioni compaiono al
seguito della voce principale e non costituiscono una voce a sé), è
nell'uso ampiamente sintetico, e riconosce esplicitamente alle
suddivisioni generiche elencate un carattere esemplificativo. Tuttavia,
anche quando la costruzione di nuove voci è affidata all'indicizzatore,
la loro correttezza è basata prevalentemente sull'autorità della lista,
mediante istruzioni specifiche o l'analogia con voci in essa già
presenti, piuttosto che sull'aderenza ad una regola generale.
Nel Soggettario attuale, il problema della costruzione delle stringhe
di soggetto assume fondamentalmente la forma della scelta della voce
principale, intesa come "prima voce", "parola d'ordine", "soggetto", e
la successiva aggiunta delle eventuali suddivisioni. La scelta della
voce pricipale si basa, più che su un ordine di citazione prestabilito,
su una valutazione del grado di importanza, di significatività dei
concetti che costituiscono il soggetto: il concetto più importante, più
significativo è espresso nella voce principale; gli altri, con funzione
completiva, nelle suddivisioni. Il Soggettario non enuncia criteri di
scelta riconducibili ad un principio unico, ma anzi adotta
comportamenti diversi a seconda dei casi, per cui convivono criteri di
tipo lessicale (p.e., la precedenza assegnata ai nomi di persona, che
dà luogo al soggetto biografico), criteri di tipo semantico (p.e., la
precedenza assegnata alle entità rispetto alle attività, ai processi e
alle discipline), criteri di tipo sintattico (p.e., la priorità
assegnata all'intero rispetto alle sue parti, o ad un individuo o una
classe rispetto alle proprietà, agli aspetti, ai punti di vista, alle
azioni che li riguardano).
La scelta delle suddivisioni si basa sulla loro ricerca nella lista,
dove si possono trovare due tipi di suddivisioni: quelle proprie di una
voce principale e quelle libere, cioè applicabili a una o più categorie
di voci principali. Negli ultimi due aggiornamenti del Soggettario,
compaiono liste di suddivisioni generiche separate e corredate da note,
rinvii e dall'indicazione del tipo di voce principale con cui sono
usate.
La proposta prevede di sostituire il modello sintattico attuale, che
consiste nella distinzione "voce principale/suddivisione", col modello
sintattico basato sullo "schema di ruoli", molto più efficace e
produttivo, in base al quale è possibile costruire le regole
sintattiche, secondo un'organizzazione gerarchica del tipo:
In un linguaggio di tipo sintetico (quale dovrebbe diventare il nuovo
Soggettario), la disposizione degli elementi significativi nella
stringa (ordine di citazione) viene regolata da norme, la cui efficacia
dipende in massima parte dal tipo di analisi categoriale e dai principi
generali sui quali sono fondate.
L'analisi categoriale è un'analisi degli elementi linguistici che
definiscono il tema da indicizzare, volta all'identificazione della
loro categoria di appartenenza: nel vecchio Soggettario le
categorizzazioni più diffuse erano di tipo lessicale (nomi propri/nomi
comuni) e/o semantico (entità/attività, concreto/astratto ecc.), che
consentivano perciò di stabilire l'ordinamento sintattico solo di
sequenze poco articolate, costituite da un numero di elementi non
superiore al numero delle categorie individuate, ed appartenenti ognuno
ad una categoria differente (un nome proprio ed uno comune, un concetto
di entità ed uno di attività, un concetto concreto ed uno astratto).
Per regolare la costruzione di strutture sintattiche di maggiore ampiezza ed articolazione è indispensabile quindi riferirsi
non al significato, ma alla funzione logica degli elementi della
stringa (scopo/strumento, azione/oggetto, azione/agente, intero/parte
ecc.). L'analisi categoriale di tipo logico-funzionale è modulare ed
esaustiva, e permette di applicare i medesimi criteri nella
rappresentazione di temi di diversa complessità, garantendo, con la
formulazione di stringhe sempre coestese, la massima espressività del
linguaggio, e livelli elevati di predittività e coerenza.
Ai due diversi criteri di analisi categoriale corrispondono principi
sintattici differenti. In relazione alle categorizzazioni lessicali e
semantiche sono stati infatti stabiliti principi di ordinamento che
attengono al significato degli elementi da disporre nella stringa, come
il principio della concretezza decrescente, formulato da Ranganathan, e
quello del concetto più significativo, formulato da Coates. Alle
categorizzazioni logico-funzionali sono invece associati due principi
sintattici basati esclusivamente sulle relazioni che uniscono i
concetti nella definizione di un tema: il principio della relazione uno
a uno (i concetti devono essere citati nella stringa in modo che sia
preservata ed evidenziata, per quanto possibile in un ordinamento
lineare, ogni relazione sintattica diretta) ed il principio della
dipendenza logica (tra due concetti deve essere citato per primo quello
che costituisce il presupposto logico della funzione svolta
dall'altro). Da quest'ultimo principio discende quello della
costruzione passiva, e quindi la norma di citare sempre come concetto
chiave (o voce principale) il concetto verso il quale è diretta
un'azione o che è obiettivo di una funzione agentiva o strumentale.
Gli aspetti del controllo terminologico presi in considerazione in questa proposta sono il numero, la scomposizione e la disambiguazione. La proposta è costruita tenendo conto di quanto previsto dalla norma ISO 2788-1986 (sulla costruzione dei thesauri) in maniera abbastanza fedele, anche se con qualche scostamento. Si tenga conto che il Soggettario attuale manca di principi e criteri omogenei per il controllo della morfologia dei termini, anche perché essi non erano ancora stati formulati in maniera esplicita e completa al momento della sua pubblicazione (1956).
La formalizzazione del vocabolario e delle relazioni semantiche è un principio irrinunciabile dei linguaggi di indicizzazione. Essa è riconducibile ad alcune regole fondamentali:
La proposta è più quella di un record di controllo semantico che di
una vera e propria voce di vocabolario, contiene perciò anche elementi
per il controllo gestionale e della visualizzazione.
Il record risulta così articolato in tre parti:
Dopo un fase di ulteriori approfondimenti, seminari, e confronti con studiosi ed esperti italiani e stranieri, la fase di studio si è conclusa nel 2002 con la stesura di un Progetto preliminare, la messa a punto dei principali aspetti organizzativi (ad es. lo smantellamento del vecchio sistema, la definizione dei costi, le modalità per realizzare il lavoro secondo piani a breve e medio termine, ecc.), e la pubblicazione in volume di tutti i testi documentari e progettuali sotto il titolo di Per un nuovo Soggettario (Bibliografica 2002).
Nel 2004 il Progetto e i suoi avanzamenti sono stati sintetizzati in un documento intitolato Il nuovo Soggettario italiano: dallo studio al progetto, a cura di Anna Lucarelli, Leda Bultrini e Alberto Cheti, disponibile online sul sito della BNCF.
Il documento illustra le principali scelte metodologiche operate dal progetto:
Approfondimenti: Alberto Cheti, Il punto sul GRIS e gli sviluppi attuali, "Bibliotime", VI, 1 (marzo 2003); Anna Lucarelli, La revisione del Soggettario, "Bibliotime", VI, 1 (marzo 2003); Anna Lucarelli, Fra principi internazionali e tradizione europea: sviluppi italiani nell'indicizzazione per soggetto a Bibliocom 2004.
Il progetto "Opac Semantici" |
Svolta fra 2003 e 2004, la ricerca "OPAC semantici" ha analizzato più di 150 cataloghi italiani dal punto di vista degli accessi semantici, allo scopo di rispondere a domande come:
La "scoperta", non troppo inattesa, è che gli opac sfruttano solo la mimima parte delle potenzialità messe a disposizione dall'indicizzazione. Tipicamente, ad esempio, non implementano la "ricerca in due fasi" (per termine e per stringa di soggetto) auspicata da Gris e dallo studio per il nuovo Soggettario, né si può effettuare una ricerca o un browsing sugli equivalenti verbali delle notazioni di classificazione. Nell'opac del polo bolognese:
Nel corso del 2006 la ricerca è stata estesa agli opac delle biblioteche nazionali e in quelli a copertura nazionale.
Nell'ottobre 2006 il gruppo GRIS, in collaborazione con ISKO Italia, ha organizzato un seminario dedicato alla gestione e al recupero per soggetto nei cataloghi in rete delle biblioteche, in cui il dibattito sugli opac semantici è si allargato al confronto con i principali fornitori presenti sul mercato italiano.
Approfondimenti: sito del progetto Opac semantici; Claudio Gnoli, Riccardo Ridi, Giulia Visintin, Di che parla questo catalogo? Un'indagine sugli accessi semantici negli opac italiani, "Biblioteche oggi", 22 (2004), 8, p 23-29; Riccardo Ridi, Claudio Gnoli, Giulia Visintin, Come vogliamo chiamarli? Operatori booleani e tecniche di information retrieval negli opac italiani, "Bibliotime", VII, 3 (novembre 2004); Claudio Gnoli, Resoconto Seminario GRIS.
"OPAC 2.0" |
Detti anche opac nextgen, sono opac di nuova concezione, che risentono molto dell'ibridazione con i più evoluti motori di ricerca e con le migliori piattaforme delle librerie e degli editori online. La denominazione fa riferimento al cosiddetto Web 2.0 (da cui gemmano anche Library 2.0, Office 2.0, ecc.), cioè un web più semantico, dinamico, interattivo, partecipativo, aperto, interoperabile, facile "da leggere e da scrivere" sia per gli utenti che per i software.
Approfondimenti: Voce Web 2.0 su Wikipedia.it.
L'indicizzazione nel contesto digitale |
Il continuo aumento della informazione a testo pieno disponibile online rende sempre più pressante la necessità di disporre di procedure attraverso le quali ottenere per via algoritmica (cioè attraverso programmi) un risultato paragonabile a quello che otterrebbe un indicizzatore esperto attraverso la comprensione dei documenti.
Definiamo due macrocontesti di azione:
All'interno del primo contesto si stanno sperimentando tecniche che derivano più o meno esplicitamente dalle vecchie tecniche di indicizzazione automatizzata, integrate però dal riconoscimento della necessità di costruire una "impalcatura semantica" che superi i problemi associati alle tecniche di riconoscimento lessicale "esatto". Ne sono esempi la LSI (latent semantic indexing), una famiglia di metodi di indicizzazione e retrieval che organizzano l'informazione in uno "spazio semantico" (che utilizza i modelli di spazio vettoriale) all'interno del quale termini e documenti strettamente associati da un punto di vista concettuale sono spazialmente vicini. Al momento dell'interrogazione, attraverso l'elaborazione dei termini usati per la query si identifica un punto nello spazio semantico e si selezionano i documenti collocati nella zona circostante a quel punto. E' possibile anche implementare meccanismi di ranking basandosi sulla maggiore o minore distanza nello spazio fra documenti e query, nonché implementare tecniche di retroazione sulla rilevanza, utilizzando i termini dei documenti pertinenti selezionati per rendere più efficace la query.
L'indicizzazione (a diversi gradi di automatizzazione) e il retrieval che agiscono all'interno dell'intero WWW pongono naturalmente problemi ancora più complessi.
Storicamente, i primi strumenti di orientamento sono state le raccolte di risorse per materia (indici manuali per classi, subject tree, per es. Yanoff, il primo Yahoo, che ha comunque tuttora come struttura principale quella classificata).
Si trattava di schemi di classificazione su base disciplinare, mantenuti da un singolo o un gruppo di persone, sulla base di un'attività "umana e manuale" di ricerca, valutazione, aggiornamento e strutturazione delle risorse in rete. Sono stati gli unici strumenti di accesso per soggetto alle risorse durante tutta la prima "pioneristica" fase di WWW, durante la quale l'entità delle risorse era tale da rendere possibile padroneggiarle con metodi manuali.
In alcuni casi non avevano un vero e proprio andamento classificatorio, ma erano una semplice "flat list" in cui erano compresenti allo stesso unico livello gerarchico sia discipline che soggetti. Es.: The WWW Virtual Library.
In una seconda fase si sono poi affermati:
Approfondimenti: Metadati e indicizzazione semantica, in 3 parti, di Ingo Bogliolo; Guide per la ricerca in Internet, di Mariateresa Pesenti; DoIS; FAST: Faceted Application of Subject Terminology.