Sei sulla pagina 1di 16

IDICIZZAZIONE: IL SOGGETTO

COS’è Ciò che gli indicizzatori devono ricercare nei documenti e rappresentare poi nel linguaggio di
indicizzazione.

Temi di base del documento,

Cosa NON E’ 

- Il riassunto del contenuto;


- La parafrasi di ciò che l’autore ha voluto comunicare su un determinato tema;
- L’elenco dei concetti importanti presenti nel documento;
- La disciplina cui la trattazione è riferibile;
- Il punto di vista o lo scopo ideologico dell’autore.

L’identificazione dei concetti dovrebbe avvenire seguendo un approccio sistematico, con l’ausilio di liste di
controllo dei fattori riconosciuti importanti nel campo disciplinare coperto dall’indice

- L’attività trattata dal documento è esercitata su un soggetto particolare?


- Il soggetto contiene un concetto che indica attività (per es. un’azione, un’operazione, un processo
ecc)?
- L’oggetto subisce l’attività identificata?
- Il documento tratta dell’agente in questione?
- Si riferisce a mezzi particolari per compiere l’azione (per esempio strumenti, tecniche o metodi
speciali?
- Il soggetto è stato considerato da un particolare punto di vista normalmente non associato a quel
campo di studio?

LIGUAGGIO NATURALE LINGUAGGIO DOCUMENTALE

ENUNCIATO DI SOGGETTO (frasi prese dal libro che STRINGA DI SOGETTO


compongono il soggetto di quella risorsa)
NUMERO ELEVATISSIMO DI TERMINI Condensato “semplificato” del linguaggio naturale
COSTRUZIONI DELLA FRASE CHE PRODUCONO Termini scelti da linguaggi controllati (es. sistemi di
STRINGE DIFFICILI DA ELABORARE classificazioni, thesauri)
POLISEMIA, SINONIMIA… Regole di combinazione dei termini.

INDICIZZAZIONE

Stringa di soggetto:

-una sequenza ordinata di termini che rappresenta il soggetto di un documento;

Espressa in un linguaggio documentale;

Regole sintattiche di elencazione:

- Principio della costruzione passiva;


- Es. Biblioteche – gestione
INDICIZZAZIONE ASSEGNATA O PER CONCETTI INDICIZZAZIONE DERICATA O PER TERMINI

Descrizione standardizzata per ogni concetto Utilizzo delle descrizioni fornite dall’autore
Descrizione indipendente da quella fornita Individuazione e combinazione di tali descrizioni in
dall’autore fase di ricerca
Descrizione utilizzata in fase di ricerca Economica in input, impegnativa in output
Impegnativa in Input, economica o output

Linguaggio naturale ------------- Linguaggio documentale

- Un termine estratto dal documento può figurare, tale e quale, nel linguaggio documentale o di
indicizzazione
- Un termine estratto dal documento può figurare come rinvio ad un altro termine individuato come
descrittore;
- Un termine può non comparire nel linguaggio documentale

Principi di esaustività e specificità:

- Quantità di concetti rappresentati dai termini di indicizzazione


- Esattezza con cui un concetto è rappresentato dal linguaggio di indicizzazione

Nessun limite predefinito al numero di termini di indicizzazione

Operazione necessaria anche in ambiente web

Necessità di coerenza e qualità

- Corretta, completa, efficace

FINALITA’:

-Recupero efficiente dell’informazione.

Lez. 10-03-2022

ISBN  INTERNATIONAL STANDARD BOOK NUMBER

DOCUMENTO: INSEGNARE LINGUA INGLESE: PROGRAMMAZIONE, AZIONE DIDATTICA, VALUTAZIONE


DELLA SCUOLA ELEMENTARE / KATIA ITALIA CANNELLA, STEFANIA MUSACCI. BRESCIA: LA SCUOLA, (1997) -
139p; 24 cm. – Didattica di ambito). ISBN 88. 350- 9317-1

ENUNCIATO I SOGGETTO:

- Insegnamento dell’inglese nella scuola elementare

CONCETTI:

- INSEGNAMENTO
- INGLESE
- SCUOLA ELEMENTARE

STRINGA DI SOGGETTO:

- Lingua inglese
- Insegnamento
- Scuola elementare

ABSTRACT:

-Rapporto di indagine e dati statistici sull’insegnamento delle lingue inglese e francese nella scuola
elementare italiana nel 1993, con descrizione dei metodi di insegnamento, sussidi didattici, strumenti di
valutazione utilizzati e valutazione degli effetti in termini di educazione inter – e multiculturale; in
subordine, attributi essenziali di una educazione inter e multiculturale.

STRINGA DI SOGGETTO:

- Indicizzazione esaustiva: LINGU INGLESE, FRANCESE, INSEGNAMENTO, METODI DI


INSEGNAMENTO, STRUMENTI DI VALUTAZIONE, SUSSIDI DIDATTICI, SCUOLA ELEMENTARE, ITALIA,
1993, EDUCAZIONE INTER E MULTICULTURALE, RAPPORTO D’INDAGINE, TABELLE STATISTICHE.

- Indicizzazione minima: LINGUA INGLESE, FRANCESE, INSEGNAMENTO SCUOLA ELEMENTARE,


ITALIA, 1993, RAPPORTO D’INDAGINE.

Un termine estratto dal documento può figurare, tale e quale, nel linguaggio documentale o di
indicizzazione.

Un termine estratto dal documento può figurare come rinvio ad un altro termine individuato come
descrittore;

Un termine può non comparire nel linguaggio documentale.

Termini in linguaggio libero che coprono i concetti Descrittori TEE corrispondenti


individuati
LINGUA FRANCESE LINGUA FRANCESE
LINGUA INGLESE LINGUA INGLESE
INSEGNAMENTO INSEGNAMENTO
METODO DI INSEGNAMENTO METODO DI INSEGNAMENTO
STRUMENTI DI VALUTAZIONE VALUTAZIONE + TEST
SCUOLA ELEMENTARE SCUOLA PRIMARIA
ITALIA ITALIA
1993 Il thesaurus non comprende determinazioni
cronologiche
EDUCAZIONE INTERCULTURALE EDUCAZIONE INTERCULTURALE
EDUCAZIONE MULTICUTURALI Manca un descrittore che copra il concetto
RAPORTO DI INDAGINE RAPPORTO DI INDAGINE
TABELLE STATISTICHE DATI STATISTICI

INDICIZZAZIONE ASSEGNATA O PER CONCETTI:


- Descrizione standardizzata per ogni concetto;
- Descrizione indipendente da quella fornita dall’autore;
- Descrizione utilizzata in fase di ricerca;
- Impegnativa in input, economica in output

VANTAGGI:

 maggiore qualità
 maggiore coerenza
 Concetto   TERMINE

SVANTAGGI:
 Rischio minore precisione

INDICIZZAZIONE DERICATA O PER TERMINI:

 Utilizzo delle descrizioni fornite dall’autore;


 Individuazione e combinazione di tali descrizioni in fase di ricerca;
 Economica in input, impegnativa in output.

VANTAGGI:

 Rispetta la terminologia scelta dall’autore;


 Riduce il rischio di interpretazione errata
 Maggiore precisione

SVANTAGGI:

 Poco coerente

Principi di esaustività e specificità:

 Quantità di concetti rappresentati dei termini di indicizzazione


 Esattezza con cui un concetto è rappresentato dal linguaggio di indicizzazione

Nessun limite predefinito al numero di termine di indicizzazione

Operazione necessaria anche in ambiente web

Necessità di coerenza e qualità

 Corretta, completa, efficace

Finalità:

 Recupero efficiente dell’informazione.

LINGUAGGI DI INDICIZZAZIONE PRE-COORDINATI:

• Combinazione dei termini al momento dell’indicizzazione


• Stringa: immagine complessiva del contenuto del documento

LINGUAGGI DI INDICIZZAZIONE POST-COORDINATI


 Termini collegati direttamente al documento
 Combinazione ad opera degli utenti al momento della ricerca
 https://eur-lrx.europa.............

IL LESSICO: Vocabolario controllato in cui tutti i termini devono essere “controllato”, per poter garantire
L’UNIFORMITA’ (un concetto deve essere sempre rappresentato dallo stesso termine) e l’UNIVOCITA’
(ogni termine deve sempre indicare un solo concetto).

LESSICO CONTROLLATO: significa che non tutti i termini che possono indicare un certo concetto sono
accettati.

La semantica: stabilisce la relazione a priori fra i termini scelti per indicare i concetti in modo da costruire
una rete di relazioni per favorire si l’INDICIZZAZIONE nella scelta del termine più opportuno, sia l’UTENTE
che può recuperare sia il soggetto desiderato, ma anche altri soggetti che possono essergli utili in quanto
affini o correlati.

LA SINTASSI: Gestisce le relazioni a posteriori, determinando l’ordine dei concetti e dei termini che li
esprimono, le combinazioni dei termini, in particolare nei soggetti complessi.

Principio della costruzione passiva

- Una stringa in cui:


- Al primo posto sia posto l’OGGETTO
- Poi l’ENUNCIAZIONE DELL’AZIONE
- Infine CHI COMPIE L’AZIONE

LETTURA – DIFFUSIONE – RUOLO DELLE BIBLIOTECHE PUBBLICHE.

Al fine di ottenere:

• Il massimo grado di specificità


• Un basso richiamo (numero contenuto di documenti indicizzati sotto il termine usato come chiave
di ricerca)
• Un’altra precisione dei risultati (basso numero di documenti trovati, ma tutti pertinenti)

Molto spesso non è sufficiente esprimere un concetto con un solo termine, ma esso deve essere
ulteriormente specificato e delimitato con l’aggiunta di altre espressioni.

I principali parametri di valutazione dei risultati di una ricerca in cataloghi e altri strumenti di recupero
dell’informazione sono il RICHIAMO e la PRECISIONE

RICHIAMO: numero di risorse pertinenti e rilevanti recuperate sul totale delle risorse pertinenti e rilevanti
disponibili

PRECISIONE: il numero di risorse pertinenti e rilevanti sul totale delle risorse recuperate.

RUMORE: documenti NON PERTINENTI recuperati.

L’INDICIZZAZIONE DI TIPO SEMANTICA:

 Analizza il contenuto dei documenti


 Offre gli strumenti per recuperare quei documenti che parlano di un determinato argomento e di
cui non conosciamo l’esistenza
IN ALTRE PAROLE DEVE CONSENTIRE DI:

 Trovare le opere/documenti relativi ad un dato soggetto;


 Trovare le opere/documenti in cui è significativamente trattato un concetto
 Trovare le opere/documenti in cui sono trattati più concetti secondo una relazione significativa

L’ANALISI CONCETTUALE: il soggetto

Il soggetto può essere considerato ogni concetto o combinazione di concetti che rappresentino un tema
all’interno di un documento.

Per evitare incongruenze nei risultati dell’analisi è opportuno che il soggetto sia sempre principalmente
identificato con il tema di base del documento.

IL TEMA DI BASE:

Quell’oggetto di conoscenza al quale sono riferibili i singoli temi particolari discussi nel documento e al
quale sono correlate nel testo tutte le informazioni fornite intenzionalmente dall’autore, essendo stata
proprio la volontà di comunicare nozioni dirette e specifiche su quell’oggetto di conoscenza il motivo
fondamentale della produzione intellettuale dell’intero documento Dunque il tema di base è una proprietà
necessaria di qualsiasi testo percepibile come un’unità coerente.

IL PROCESSO COINVOLGE 4 ASPETTI:

L’analisi della risorsa IN RELAZIONE AL CONCETTO DI ABOUTNESS, ossia la proprietà della risorsa di
trattare un soggetto, di essere ABOUT (su) un certo argomento;
L’analisi della risorsa IN RELAZIONE AL CONCETTO DI LITERARY WARRANT (garanzia bibliografica) in
modo tale che l’indicizzazione sia basata sul materiale a disposizione e non su considerazione
astratte;
L’analisi del contenuto della risorsa IN RELAZIONE ALLA COLLEZIONE, alla tipologia della biblioteca e
del catalogo.
L’analisi relativa al PIANO TECNICO scegliendo tra un linguaggio d’indicizzazione approfondito o più
in generale.

L’ANALISI CONCETTUALE

Quando le fonti non forniscono informazioni chiare e dirette sul tema di base della risorsa è necessario
ricostruirlo:

- La CANCELLAZIONE, cioè ‘ELMINAZIONE DEI CONCETTI OCCASIONALI o MARGINALI;


- La GENERALIZZAZIONE, cioè la RICONDUZIONE DI CONCETTI TROPPO SPECIFICI A UNO GENERICO
CHE LI COMPRENDA;
- La COSTRUZIONE, cioè la RIUNIONE DI Più ENUNCIATI IN UNO Più AMPIO IN GRADO DI
COMPRENDERLI TUTTI.

Al termine di questa fase, l’indicizzazione arriva a formulare un enunciato di soggetto, una “parola” o
“combinazione” d parole del linguaggio naturale che esprime IL SOGGETTO DI UN’OPERA (GRIS-
Gruppo di Ricerca sull’Indicizzazione per Soggetto).
BIBLIO. LEZ DEL 15/03/2022
LEZ. 22-03-2022

I THESAURI sono una base di dati

Indicizzazione

 Manuale
 Automatica
 Supporto nella definizione di metadati

Controllo terminologico

 Strutturazione dei concetti


 Identificazione di un termine preferito

Organizzazione della conoscenza


 KOS – Knowledge Organisation- System

Recupero dell’informazione

 Estensione dei risultati delle ricerche


 Supporto all’utente

Navigazione

ù NOTA D’AMBITO SN

TERMINI CONCETTI TERMINE PREFERITO USE

TERMINE NON UF
PREFERITO

TOP TERM TT
RELAZIONI

SEMANTICHE TERMINE GENERICO BT

TERMINE GENERICO BTG


(GENERICO)

TERMINE GENERICO BTP


(PARTITIVO)

TERMINE SPECIFICO NT

TERMINE SPECIFICO NTG


(GENERICO)

TERMINE SPECIFICO NTP


(PARTITIVO)

VANTAGGI DI UN LINGUAGGIO CONTROLLATO

Ha una forte garanzia di corrispondenza

Garanzia di coerenza

 Soggettività della pratica di indicizzazione


 Incoerenza nell’attribuzione dei termini utilizzati per identificare un dato concetto
 Scarsa coincidenza tra i termini utilizzati dagli indicizzatori e quelli utilizzati dagli utenti

Indicizzazione assegnata VS Indicizzazione derivata

THESAURUS: RECUPERO DELL’INFORMAZIONE

Supporto all’utente nella scelta delle parole chiave da impiegare in una query

 Narrower Term: specificare meglio la ricerca e ridurre gli item che potrebbero essere recuperati
 Broader Term e Related Term: ampliare la ricerca nel caso vengano restituiti pochi documenti

Consultazione del thesaurus per formulare la query


Integrato in un software di ricerca

 Raffinamento dei risultati

RT sono i termini associati in qualche modo al termine, non sempre. Un RT in caso di termine come
“malattia” potrebbe essere un virus. Nel caso il termine fosse poco esaustivo, i BT insieme all’RT mi danno
più risorse rispetto ad un termine solo con RT.

Thesaurus: Navigazione

Navigare il vocabolario per

- Identificare i descrittori relativi ad un argomento


- Utilizzare ulteriori termini di ricerca

Accesso diretto di documenti o alle loro descrizioni

- Documenti associati a più termini


- Architettura dei thesauri riempita con informazioni reali

SOLO QUEI TERMINI PER I QUALI STRUTTURA COMPLETA


ESISTONO REALMENTE DELLE RISORSE INDIPENDENTEMENTE DAI
DOCUMENTI ASSOCIATI AI TERMINI

THESAURUS: METODOLOGIA DI REALIZZAZIONE

Definizione degli obiettivi e delle caratteristiche del thesaurus

- Da chi deve essere utilizzato


- Per quali scopi
- Formato
- Integrazione con altri sistemi
- Struttura

EX NOVO O RIELABORAZIONE/TRADUZIONE DI THESAURI ESISTENTI

RACCOLTA DEI TERMINI

 Risorse terminologiche esistenti


 Costituzione di un corpus documentale
- - estrazione terminologica
- - Identificazione dei termini

LEZ. 24-03-2022

THESAURUS: METODOLOGIA DI REALIZZAZIONE


Organizzazione dei termini

- Scelta della forma dei termini


- - categoria grammaticale, Termini composti/scomposizione, Singolare/Plurale ecc..
- Definizione delle relazioni semantiche
- Inserimento di una notazione

Scelta della struttura di organizzazione dei concetti

- A faccette

Coinvolgimento di esperti

Validazione

Aggiornamento

COSTITUZIONE DI UN CORPUS DOCUMENTALE

Tipologie di corpus

- Specialistico o generale
- Di lingua scritta, dell’orale o misti
- Sincronico e diacronico
- Monolingue o multilingue
- Costituito da testi interi o da frammenti

COSTITUZIONE DI UN CORPUS DOUMENTALE

Corpus come campione

- Rappresentatività
- Estensione
- -----------Numero di parole unità (token)

Criteri qualitativi di selezione dei testi

- Significativi per gli obiettivi di ricerca


- Tipologia di testi
- Bilanciamento

Limiti

- Rappresentatività relativa
- Arbitrarietà

THESAURUS: APPROCCI DI REALIZZAZIONE

Approccio deduttivo

- Analisi dei termini


- Definizione della struttura

Approccio introduttivo
- Definizione preliminare della struttura (es. categorie)
- Inserimento progressivo dei termini

Combinazioni di entrambi

- Definizione della struttura di inserimento dei termini procedendo di pari passo

DEFINIZIONE DELLE RELAZIONI SEMANTICHE

Relazioni paradigmatiche o a priori

- Relazione di equivalenza: USE/UF


- Relazione gerarchica BT/NT
- Relazione associativa RT

Scope notes (nota d’ambito) subentra quando c’è la polisemia (radio  osso o apparecchio per ascoltare la
musica. La nota d’ambito serve per disambiguare due termini identici con significato diverso. Importante il
termine associato in un periodo storico particolare, ad es. per STORIA MODERNA.

DEF, HN

Qualificatori

- Es. organo (strumento musicale); organo (corpo umano)

Poligerarchia vs Monogerarchia

- Biochimica BTP Chimica, Biologia

DEFINIZIONE DELLE RELAZIONI SEMANTICHE

Relazione di equivalenza (1)

- Sinonimia
- --termini Specialistici/comuni
-----Cefalea/Mal di testa

- Nomi commerciali
- -------- Biro/ Penna a sfera

- Varianti ortografiche, varianti linguistiche

- ---------database/ Data-base

- Acronimi/Abbreviazioni

- -------ONU/Organizzazione delle Nazioni Unite

- Termini gergali, neologismi

- -----------Papaprazzo/Fotoreporter
- Prestiti linguistici

- -------Computer/Elaboratore elettronico

Termine non preferito USE Termine preferito

Termine preferito UF Termine non preferito

Definizione delle relazioni semantiche

Relazione di equivalenza USE/UF

- Fonte dei termini, frequenza, esperti


- Favorire il recupero dell’informazione
- Relazione tra termini e non tra concetti (il concetto è sempre uno, i termini sono diversi)

- OBIETTIVO
- DESTINATARI

DEFINIZIONE DELLE RELAZIONI SEMANTICHE

Relazione gerarchica: BT/NT

- Genere – specie: BTG/NTG


- All-and-some test
- Felini NTG Gatti

Top Term (TT)

- Aree semantiche di un thesaurus multidisciplinare


- - es. Architettura, Zoologia, Letteratura, ecc

Funzioni

- Scegliere il livello di specificità


- Search explosion

DEFINIZIONE DELLE RELAZIONI SEMANTICHE

RELAZIONE ASSOCIATIVA  RT  “vedi anche”

- Concetti appartenenti alla stessa categoria


- -----Treni RT Automobili

Concetti appartententi a categorie differenti


- Attività – Prodotto dell’attività Tessitura RT Tessuto
- Agente – Attività Docente RT Insegnamento
- Disciplina --- Oggetto di studio Anatomia RT Corpo Umano
- Oggetti --- Proprietà Metalli RT Malleabilità
- Attività --- Strumento Incisione RT Bulino
- Ecc

SPECIFICAZIONE DELLA TIPOLOGIA DI RELAZIONE

- Cause/Effect es. Infezione RT Malattia

Funzioni

- Search expansion

LEZ. 5 APRILE 2022

Potrebbero piacerti anche