Sei sulla pagina 1di 18

Corso di Informatica Musicale A.A.

2018/2019
Istituto Superiore di Studi Musicali A. Toscanini
Sintesi delle lezioni in classe

Cos’è il suono
Come tutti i fenomeni fisici che interessano i nostri sensi, il suono è un argomento complesso da trattare perché richiede sia una
trattazione fisica oggettiva (nella quale il suono è un fenomeno ondulatorio in un mezzo elastico) sia una trattazione che tenga
conto della nostra percezione (nella quale si intende il suono come fenomeno soggettivo a seconda di chi ne viene investito); nei
due casi si parlerà di acustica o di psicoacustica.

Dal punto di vista fisico, cos’è il suono?


Il suono giunge all’orecchio umano come variazione della pressione atmosferica. Ogni variazione (purché sia sufficientemente
grande, e poi vedremo cosa questo voglia dire) produce nel nostro orecchio una reazione che genera ciò che noi chiamiamo un
suono. Queste variazioni sono comunque molto piccole rispetto alla pressione atmosferica, e difatti non sono misurabili con un
comune barometro.
Le variazioni sono dette onde di pressione sonora. Una visualizzazione classica che aiuta a comprendere cosa può essere un’onda
di pressione sonora, è quella delle onde che si producono in una superficie d’acqua quando vi viene gettato un sasso.
Ovviamente questa è una situazione che può essere visualizzata in modo bidimensionale, e infatti le onde nell’acqua si possono
pensare come cerchi, mentre nel caso delle onde sonore siamo in una situazione tridimensionale, quindi dobbiamo pensare le
onde sonore come sferiche.
Cominceremo da uno strumento fondamentale per lo studio del suono, la sinusoide semplice, ossia la forma d’onda più semplice
possibile. La rappresentazione sarà bidimensionale – ma non dimentichiamo che in realtà
stiamo pensando ad un fenomeno che si sviluppa tridimensionalmente nello spazio. In modo estremamente generale, possiamo
dire che il suono è un fenomeno ondulatorio – che si manifesta in generale in ogni corpo elastico, nella nostra esperienza più
comune nell’aria. E’ quindi ovvio che nel caso più semplice – oscillazioni costanti nell’ampiezza e nel tempo – la sinusoide sia la
migliore rappresentazione di un fenomeno sonoro.
Immaginiamo un esempio molto classico di sinusoide: quello di una penna, solidale ad una massa che oscilla in senso verticale –
perchè appesa ad una molla – e di un foglio di carta che scorre in senso orizzontale a velocità costante, come nella figura. La
punta della penna è a contatto del foglio di carta.

L’immagine che viene disegnata sulla carta dalla penna è una sinusoide. Si intuisce bene dalla figura quanto la sinusoide sia
indicata a descrivere moti oscillatori, infatti il moto della penna è proprio un moto oscillatorio. Andiamo ora a vedere quali sono i

valori che leggeremo sul grafico di un’onda sinusoidale. Osserviamo la figura:


L’asse orizzontale – quello delle ascisse – sarà l’asse del tempo (t), quello sul quale sono segnati gli istanti successivi da sinistra
verso destra. l’asse verticale – quello delle ordinate – è quello delle ampiezze (A), dove andremo a leggere l’ampiezza delle
oscillazioni. L’intersezione dei due assi rappresenta, sull’asse delle ascisse, il momento a partire dal quale iniziamo
l’osservazione, su quello delle ordinate l’oscillazione nulla.
Abbiamo visto delle esemplificazioni sulle onde di pressione sonora: ora avviciniamoci un po’ di più al fenomeno fisico e
cerchiamo di comprenderlo un po’ meglio. Immaginiamo alla propagazione del suono nel mezzo che ci è più familiare: l’aria. Se
una particella d’aria viene spostata dalla sua posizione di equilibrio, le forze elastiche tendono a riportarla in tale posizione,
appunto, di equilibrio. Tuttavia, a causa dell’inerzia della particella (quella forza che tende a conservare il moto di un oggetto in
movimento), essa si sposta oltre l’originaria posizione di equilibrio, mettendo in azione forze elastiche nella direzione opposta e
così via.
Il suono si propaga nei mezzi elastici, siano essi gas, liquidi o solidi; ad esempio il suono si propaga nell’aria, nell’acqua, nel legno,

1
nell’acciaio, nel cemento. Senza un mezzo elastico il suono non può propagarsi: nel vuoto dove non c’è alcun mezzo, non può
esistere suono.

Come possono le particelle d’aria “trasportare” il suono? In realtà il suono non è altro che una “vibrazione” delle particelle d’aria
stesse. Osserviamo la prossima figura:

Le molecole più addensate rappresentano le aree di compressione, dove la pressione è lievemente maggiore di quella
atmosferica normale. Le aree dove i punti sono più radi rappresentano sacche di rarefazione, dove la pressione è leggermente
inferiore a quella atmosferica. Le molecole tenderanno a muoversi dalle sacche di compressione alle sacche di rarefazione,
conservando la spinta della pressione iniziale. Questo causa il moto complessivo delle particelle in una specifica direzione. Chi
osservasse il moto vedrebbe in pratica muoversi le sacche di compressione.
Nell’aria libera il suono si propaga uniformemente in tutte le direzioni, e la sua intensità diminuisce all’aumentare della distanza
dalla sorgente.
E’ importante sapere inoltre che la potenza del suono per unità di area (intensità sonora) diminuisce proporzionalmente al
quadrato del raggio. La Legge dell’inverso del quadrato stabilisce che l’intensità del suono in campo libero è inversamente
proporzionale al quadrato della distanza dalla sorgente. Se la distanza raddoppia, l’intensità si riduce a 1/4; se triplica, l’intensità
si riduce a 1/9; se quadruplica, l’intensità si riduce a 1/16.

Caratteristiche fondamentali di un onda sonora


Come abbiamo già detto un suono ha origine dalla vibrazione di un corpo elastico: un diapason percosso con un colpo secco, una
corda tesa strofinata da un archetto, l’aria contenuta all’interno di un flauto posta in vibrazione soffiandoci contro altra aria. Si
può osservare che la vibrazione di questi corpi elastici ha un andamento ondulatorio, ossia descrive nel tempo un movimento
che può essere rappresentato graficamente con un onda. Tale onda sarà caratterizzata, a seconda della natura, delle dimensioni,
e dello stato di tensione del corpo elastico che entra in vibrazione, nonché dalla causa che origina tale vibrazione, da alcune
grandezze che ne definiscono l’andamento: frequenza (o altezza), ampiezza (o intensità) e timbro.
La frequenza è espressa in hertz. Si nota che tale grandezza definisce l’altezza del suono c come parametro oggettivo: in
particolare con l’aumentare della frequenza un suono diviene più acuto, col diminuire diviene più grave. In definitiva, pur con
qualche eccezione, possiamo dire che un onda strettamente periodica produce quasi certamente una sensazione di altezza via
via che la periodicità dell'onda diventa meno stretta, anche la sensazione di altezza è meno precisa
Misurare l'onda Ora vedremo che cosa è possibile misurare con precisione in un'onda. Consideriamo una forma d'onda
strettamente periodica.
Per prima cosa è possibile misurare la lunghezza di un ciclo, la sua durata e il numero di volte che esso si ripete in un secondo. La
lunghezza è un valore raramente utilizzato in acustica musicale (serve invece nel campo delle trasmissioni radio).
Concentriamoci, quindi sulle ultime due misure. Durata del ciclo o Periodo: il periodo è la durata di un ciclo e si misura in frazioni
di secondo Frequenza: il numero di ripetizioni del ciclo per secondo. Si misura in Hertz (abbr. Hz). Un'onda il cui ciclo si ripete
100 volte al secondo ha una frequenza di 100 Hertz. è strettamente collegata all'altezza del suono.
Ampiezza: è lo scostamento dell'onda dalla linea di zero (non suono). Si misura in decibel. Come vedremo più avanti, è legata alla
dinamica/intensità/volume del suono. Fase: la fase, in un certo punto, è l'istante in cui l'onda si trova nel ciclo. Il ciclo ha una
certa forma; in ogni istante, l'onda si trova in un punto di quel ciclo: questa è la fase. Si misura in gradi (da 0 a 360, come un
angolo) o in radianti (da 0 a 2 pi-greco; c'è un legame fra le onde e la trigonometria, ma sorvoliamo). Per vostra fortuna, nel caso
di suoni singoli, l'orecchio è insensibile alla fase, quindi, per il momento non ci serve, ma la troveremo nei battimenti.

2
Capacità dell’udito umano Abbiamo fin qui esaminato il suono e la sua propagazione secondo dei principi fisici, definendone
alcune grandezze fondamentali quali la frequenza e l’intensità.
La domanda che ci poniamo ora è: Quali suoni sono in grado di essere percepiti dal nostro orecchio? La capacità dell’udito
umano varia fortemente da individuo a individuo, e decade nelle prestazioni con l’aumentare dell’età.
Appositi studi fonometrici hanno stabilito che mediamente: • L’uomo è in grado di udire suoni la cui frequenza è compresa dai
20 ai 20.000 Hz Tale gamma di suoni è chiamata gamma udibile. I suoni la cui frequenza è al di sotto dei 20 Hz sono chiamati
infrasuoni (o gamma subsonica). I suoni la cui frequenza eccede i 20.000 Hz sono chiamati ultrasuoni.
Alcuni animali hanno una gamma udibile maggiore di quella dell’uomo, in particolare per quanto riguarda il limite superiore. Vi
sono ad esempio alcuni ultrasuoni che possono essere uditi dai cani ma non dall’uomo.

Timbro di un suono Il timbro è la qualità percepita di un suono che ci permette di distinguere due suoni che hanno la stessa
altezza e la stessa intensità. Il timbro dipende dalla forma dell'onda sonora, determinata dalla sovrapposizione delle onde
sinusoidali caratterizzate dai suoni fondamentali e dalle loro armoniche, cioè è una composizione spettrale dei suoni
fondamentali, così come la avviene per la luce.
Dal punto di vista della produzione del suono, il timbro è determinato dalla natura (forma e composizione) della sorgente del
suono e dalla maniera in cui questa viene posta in oscillazione. In parole più semplici il timbro è la qualità del suono che ci
permette di distinguere la voce di un violino da quella di un flauto, quando i due strumenti stiano emettendo una stessa nota.
Si può dire che il timbro rappresenta la carta di identità del suono.

Trasformata di Fourier
Con un procedimento matematico messo a punto nel '700 dal matematico e fisico francese Jean Baptiste Joseph Fourier
(1768 -1830), chiamato appunto trasformata di Fourier (F-trasformata), possiamo scomporre un onda in una serie di sinusoidi.
La F-trasformata è uno strumento che permette di scomporre un segnale generico in una somma infinita di sinusoidi
con frequenze, ampiezze e fasi diverse; e successivamente permette di ricostruirlo tramite la formula inversa di
sintesi (o "antitrasformazione"). L'insieme di valori in funzione della frequenza, continuo o discreto, è detto spettro di
ampiezza e spettro di fase.

Il campionamento analogico- digitale


Innanzi tutto è necessaria una distinzione fondamentale: cosa si intende per segnale analogico e cosa per segnale digitale.
Il campionamento è infatti una conversione da analogico a digitale, e per comprendere come questa venga realizzata, bisogna
comprendere quali sono i soggetti di questa trasformazione.
La definizione classica di “analogico” e “digitale” è quella che segue.
Il segnale analogico è quello in cui sia continua la variazione nel tempo.
Il segnale digitale è quello in cui la variazione nel tempo avviene invece in modo discreto.
Attenzione a questa definizione perché esprime un concetto molto semplice ma allo stesso tempo fraintendibile.
Utilizziamo alcuni esempi per assimilare il concetto.
Come primo esempio, pensiamo ad un orologio a lancette (supponiamo che sia del tipo in cui la lancetta dei secondi si muove in
modo continuo e non a scatti).

Questo orologio segna non solo le ore, i minuti ed i secondi, ma anche ogni altro tipo di frazione vogliamo immaginare: i mezzi

3
secondi, i decimi, i centesimi e così via. Per quanto possa essere difficile per l’occhio distinguere i vari istanti, noi sappiamo che
l’orologio passa in modo continuo per ogni istante di tempo noi possiamo immaginare.

Pensiamo invece ad un orologio digitale, di quelli che indicano l’ora con dei numeri su un display. Questo orologio segnerà le ore,
i minuti, ed i secondi, facendo scattare questi ultimi uno ad uno; noi non vediamo i mezzi secondi, i decimi e così via: dalle
10:10:01 alle 10:10:02 (per esempio) l’orologio segnerà sempre le 10:10:01.

L’orologio a lancette si può definire un dispositivo analogico, mentre l’altro orologio, fornendo solo misurazioni discrete, ma non
continue, è detto, appunto, digitale.
Un secondo esempio: pensiamo a due differenti modi di monitorare il livello di un segnale: il primo, il classico VU-meter a
lancetta, tipico dei vecchi mixer; il secondo, la colonnina di led luminosi, tipica ad esempio degli equalizzatori.

Il VU-meter, per ragioni precisamente analoghe a quelle dell’orologio a lancette, è un dispositivo analogico; la colonna di led,
fornendo solo dati discreti, è un dispositivo digitale.
Cosa vuol dire allora campionare un segnale?
Vuol dire trovare una rappresentazione discreta per qualcosa che in origine ha una variazione continua. Lo scopo è evidente:
laddove, ad esempio, per modificare la registrazione analogica di una voce, dobbiamo prima convertire l’energia sonora in
energia elettrica (tramite un microfono), poi trasformare l’energia elettrica in proprietà magnetica di un nastro (tramite un
registratore a nastro) e infine intervenire con modifiche meccaniche sul nastro stesso (operazioni di edit con taglia e incolla
manuali del nastro), con una registrazione digitale, nella quale l’energia elettrica fornita dal microfono viene direttamente
convertita in campioni digitali, ossia in dati numerici discreti, sarà possibile modificare la registrazione tramite un calcolatore
elettronico in grado di analizzare i dati e modificarli.

Campionamento e tempo (frequenza e teorema di Nyquist)


Il primo problema pratico che si pone di fronte alla realizzazione di un campionamento, è di stabilire quante volte in un certo
lasso di tempo vada presa la misurazione del segnale perché il campionamento risulti accurato, e il segnale digitale risultante
possa essere riconvertito in segnale analogico senza aver perso o mutato determinate caratteristiche del segnale originale.
Prendiamo come esempio la classica sinusoide elementare, come quella in figura.

Poniamo di possedere un dispositivo che prenda, in un certo lasso di tempo, un certo numero di campioni del segnale: ad
esempio, 14 campioni per periodo della sinusoide. Otterremo una serie di campioni come quella in figura:

4
Vediamo che la sinusoide originaria è ancora intuibile, per cui è possibile ricostruirla e invertire il procedimento.
Ma immaginiamo di dimezzare la frequenza del campionamento, ossia di raddoppiare il tempo tra una misurazione e l’altra.
Otterremo una diversa serie di campioni, meno fitta della precedente:

La sinusoide è ancora intuibile, ma è evidente che abbiamo perso parte dell’informazione originale.
Dimezzando ancora, la situazione diventa quasi critica:

Qui è già molto difficile risalire al segnale originale. Dimezzando ulteriormente, si perde ogni traccia della sinusoide:
Abbiamo capito dunque che c’è un punto critico, al di sotto del quale la frequenza di campionamento non può scendere, pena la
perdita totale dell’informazione.
Esiste un importantissimo teorema che ci viene incontro nello stabilire quale sia questo punto critico, un teorema che si chiama
Teorema di Nyquist – dal nome del suo scopritore – o anche Teorema fondamentale del campionamento.
Il teorema afferma che: ogni segnale a banda limitata può essere campionato e perfettamente ricostruito a patto che la
frequenza di campionamento sia almeno il doppio della frequenza massima contenuta nella banda del segnale.
Soffermiamoci un attimo: innanzitutto vediamo che la banda del segnale deve essere limitata: ossia deve esserci una frequenza
massima all’interno del segnale, che non venga mai superata. Poi, misurata questa frequenza massima, il teorema afferma che la
frequenza del campionamento deve essere almeno doppia di questa frequenza massima perché il campionamento possa essere
realizzato con successo. Ad esempio: se vogliamo campionare il segnale di un basso elettrico, nel quale la frequenza massima sia,
per ipotesi, 300Hz (ovvero l’onda sonora più “veloce” compie 300 cicli al secondo), la frequenza di campionamento dovrà essere
come minimo di 600Hz, ossia dovranno essere presi almeno 600 campioni in un secondo.
Se dobbiamo campionare il segnale di un violino, che arrivi, ad esempio, fino a 15.000 Hz, sarà necessaria una frequenza di
campionamento di almeno 30.000Hz, ossia si dovranno prendere almeno 30.000 misurazioni al secondo.
Nella pratica, in ragione del fatto che lo spettro dell’udibile per l’orecchio umano è compreso tra 20 e i 20.000Hz, una frequenza
di 40.000Hz dovrebbe essere sufficiente a campionare ogni possibile suono udibile dall’uomo. In questa affermazione il
condizionale è d’obbligo, perché nella pratica intervengono problematiche connaturate alla costruzione e al funzionamento dei
dispositivi, per cui una frequenza “standard” viene oggi individuata attorno ai 44.100Hz, anche se sono largamente utilizzate
anche frequenze più alte (48.000Hz, 96.000Hz) o, nelle vecchie apparecchiature, più basse (15.000Hz, 30.000Hz).

Campionamento e ampiezza (dinamica, bit e quantizzazione)


Abbiamo chiarito, brevemente, alcune questioni legate alla frequenza di campionamento: possiamo dire, in un linguaggio
appena un po’ più tecnico, che abbiamo analizzato la questione nel dominio del tempo – ossia sull’asse orizzontale del grafico
del nostro segnale. Proviamo a cambiare punto di vista, e analizziamo in generale la questione dal punto di vista dell’asse
verticale: ossia dal punto di vista dell’ampiezza. Abbiamo visto che, nel campionamento, andiamo a trasformare in valori
numerici discreti quello che in origine è un segnale continuo. Ciò è dovuto al fatto che dobbiamo operare con macchine che
possono gestire solo numeri finiti. In realtà, chi sa anche solo un po’ di informatica, sa che ogni valore numerico viene conservato
in un calcolatore sotto forma di una sequenza di bit – dove un bit può assumere un valore tra 0 e 1. Un valore numerico
memorizzato nel nostro campionatore dovrà quindi avere una forma del tipo 0010, o 1011, o 10110101, o qualcosa di analogo.
Come si applica questa situazione generale al campionamento? E’ evidente che i valori che descrivono l’ampiezza del segnale
nell’istante in cui avviene il campionamento, dovranno essere del tipo che abbiamo visto: è chiaro anche, quindi, che essi non
potranno assumere ogni possibile valore numerico (6, 35, 47/17, pi greco, 4,6666666…), ma potranno in realtà essere scelti in un
insieme ristretto e finito, determinato dal numero di bit che il calcolatore metterà a disposizione per i valori dell’ampiezza del
segnale. I numeri dovranno cioè essere approssimati ad uno dei valori possibili. E’ per questo che, oltre alla frequenza di
campionamento, di un campionatore si dichiara anche la capacità di quantizzazione. Quali sono i valori possibili per la
quantizzazione? Prendiamo il caso che il campionatore metta a disposizione 4 bit per il campionamento. Ciò significa che avremo
a disposizione valori binari da 0000 a 1111, ossia solo 16 “step” di valori possibili. Questo ci costringerà ad un grafico digitale
piuttosto rozzo, con pochi valori possibili per un segnale che, invece, possiede moltissime possibilità di variazione dinamica
(pensate a quanti possibili valori di ampiezza può produrre un’orchestra, dal pianissimo al fortissimo: un direttore d’orchestra
inorridirebbe al pensiero di soli 16 possibili volumi differenti!). Già con 8 bit a disposizione la situazione è migliore: il massimo
numero possibile è 11111111, ossia, passando dalla numerazione binaria a quella in base dieci, 256. Questo significa che avremo
256 possibili “step” di volume.
In generale, la formula che ci dà il numero di step – o regioni – di quantizzazione è 2N, dove N è il numero di bit.

5
Così ad esempio avremo, con 16 bit (una quantizzazione tuttora molto in uso),2N=65.536 regioni, con 24 bit, 2N=16.777.216
regioni.

I Formati Audio
Da quando la musica in formato digitale è diventata popolare i suoi fan hanno gradualmente maturato la volontà di ascoltarla
con la massima qualità possibile.
I limiti tecnici e i costi ci hanno tenuti per un po’ lontani dal raggiungere questo obiettivo, che oggi non è più un miraggio.
Il mercato dei servizi di musica in streaming non è mai stato così florido ma ci sono così tanti formati di musica digitale che è
necessario fare chiarezza: Il master registrato in studio viene inciso alla risoluzione che definisce l’artista, ma poi l’album che noi
ascoltiamo può essere convertito in una grande quantità di formati più o meno compressi che si dividono, in 2 grandi famiglie:
Lossy audio Formats: in cui la qualità e i dati contenuti sono minori rispetto al file originale con conseguenti perdita di dettagli,
ma a vantaggio della leggerezza del file. Questi formati sono spesso usati dai servizi di streaming, come Spotify e richiedono
meno spazio di archiviazione.
Lossless: in cui la qualità del file generato è la medesima del master originale, senza alcuna perdita di qualità, richiedono però
sistemi di archiviazione come NAS e non sono ideali per essere riprodotti in streaming utilizzando la connessione dei dispositivi
mobili.
Cominciamo dalla prima famiglia Lossy (AAC, MP3, Ogg Vorbis e WMA) AAC Advanced Audio Coding o MPEG-4, è lo standard di
default utilizzato da Apple per iTunes. I nostalgici che hanno posseduto un iPod si ricorderanno che importando i CD nel proprio
MAC i file venivano convertiti in questo formato. A parità di bitrate occupa lo stesso spazio di un MP3 ma la conversione può
essere di qualità superiore. MP3 Acronimo di Moving Picture Expert Group-1/2 Audio Layer 3 è il formato audio compresso più
utilizzato al mondo e introdotto per la prima volta nel 1998. Il suo algoritmo di compressione va a rimuovere alcuni dettagli della
traccia audio che possono essere difficilmente ascoltati dall’orecchio umano.
Comprimendo un file WAV si può ottenere un MP3 fino a 90 volte più leggero rispetto all’originale, ciò che varia sono i bitrate
ovvero la quantità di informazioni digitali (bit) che è trasferita o registrata in una unità di tempo, che possono oscillare dai 32
(scarsa qualità) ai 320 KB (ottima qualità) al secondo. OGG Vorbis È un formato Open Source di qualità paragonabile all’MP3,
sconosciuto fino a poco tempo fa ma utilizzato ora da servizi come Spotify. OGG è l’estensione del file, mentre Vorbis è
l’algoritmo di compressione. WMA Windows Media Player è il formato inventato da Microsoft in risposta allo standard MP3, la
qualità è la medesima ma ha lo svantaggio di essere supportato solamente dai dispositivi di questo marchio.
Scopriamo ora le caratteristiche della famiglia Lossless (FLAC, ALAC, AIFF, WAV e DSD) FLAC Free Lossless Audio Codec. Si tratta
del formato open source più utilizzato per il music download senza perdite di qualità rispetto alla sorgente originale. Un orecchio
abbastanza attento è in grado di percepire facilmente le differenze rispetto ad un file di formato e qualità inferiore.
iTunes non supporta la riproduzione di questo formato poiché utilizza il proprio (ALAC) ALAC Apple Lossless Audio Codec, ovvero
il FLAC per il mondo Apple, anche se in termini di peso non equipara il FLAC, è ideale solo se si usano i dispositivi con il marchio
della mela. AIFF Apple è proprietaria anche di questo formato Audio Interchange File Format, che, è stato sviluppato basandosi
sull’Interchange File Format della Electronic Arts ed è particolarmente adatto agli audiofili e a chi produce musica. Presenta
essenzialmente le medesime caratteristiche del formato WAV ma senza compressione ed è utilizzato dagli artisti perché
consente di embeddare all’interno del file anche dei metadati come testi, note o altre informazioni.
WAV WAVE form audio file format, è stato introdotto nel 1991 da Microsoft e IBM, è ancora in uso e rappresenta ciò che si
ottiene quando si importa un CD musicale nel proprio computer Microsoft.
Riproducendo un file di questo formato, che può essere letto anche da un MAC, si ricorre a una funzione speciale presente nella
CPU di Intel. Sono file molto pesanti che arrivano al massimo a 2 GB e riproducono i suoni in maniera molto fedele.
DSD Direct Stream Digital è un marchio registrato di Philips e Sony sviluppato per il Super Audio CD. Utilizza un metodo di
codifica che anziché prevedere profondità in bit maggiori, utilizza un solo bit ma a una frequenza di campionamento molto più
elevata per registrare, archiviare e riprodurre una qualità del suono estremamente alta.

I microfoni
Il microfono è un oggetto indispensabile nella registrazione sonora, e per quanto esistano campi in cui la musica viene realizzata
quasi esclusivamente con strumentazioni elettroniche, anche in questo caso è difficile che non venga utilizzata una voce umana,
o qualche suono “naturale”, ripreso con un microfono e poi elaborato elettronicamente.
In campi quali il cinema, la televisione, la radio, la sonorizzazione dei videogiochi, il microfono è parte essenziale e
imprescindibile del processo di creazione del prodotto finale, ed è essenziale operare una scelta appropriata e intelligente, sia
per quanto riguarda il microfono stesso, che per quanto riguarda la tecnica di ripresa, al fine di apportare un buon contributo
sonoro, che risulti del livello appropriato per la realizzazione complessiva. Purtroppo, in molti casi – non tanto nel mondo
professionale, ma spesso in quello semi-professionale – si da scarsa importanza al microfono, preferendo spendere grosse cifre
in altre attrezzature, e relegando proprio il mezzo di ripresa al ruolo di cenerentola dell’audio, ricorrendo spesso a scelte casuali.
Ogni microfono nasce invece per un utilizzo specifico, ed è estremamente importante conoscerne funzionamento e
caratteristiche per giungere a buoni risultati.
Questo tutorial si pone l’obiettivo di fornire le informazioni di base necessarie a distinguere tra i vari tipi di microfono e ad
effettuare una scelta consapevole in caso di una necessità specifica.

Cos’è il microfono
La definizione di cosa sia un microfono, sebbene possa disorientare per l’uso di un paio di parole non presenti nell’uso comune,

6
è in realtà di grande semplicità nel concetto di fondo. Un microfono è un trasduttore che trasforma l’energia sonora in energia
elettrica. In base a questa definizione, ad esempio, anche un pick-up per chitarra è un microfono (ed in effetti, di nient’altro si
tratta). Chiariamo prima di tutto cos’è un trasduttore. Con l’uso di un semplice dizionario scopriamo che il termine sta ad
indicare un “dispositivo che trasforma una grandezza fisica in un’altra”.
Ora, basta pensarci un attimo per comprendere quali siano le grandezze coinvolte (anche se qui non le indicheremo con troppa
precisione): la prima è la pressione esercitata sull’aria da una fonte sonora, mentre la seconda è l’energia elettrica che “viaggia”,
per così dire, nel cavo microfonico fino alla sua destinazione (un amplificatore, un registratore, un trasmettitore), dove verrà
interpretata (in base a frequenza ed ampiezza), in modo da poter poi essere riconvertita in una pressione sonora che abbia le
caratteristiche originarie.
Il nostro microfono dovrà quindi essere:
a) sensibile alla pressione, ed anche a pressioni molto piccole, in modo da poter raccogliere anche suoni non particolarmente
intensi;
b) in grado di trasformare questa energia sonora in un segnale elettrico che sia, istante per istante, coerente per intensità e
frequenza con la pressione sonora esercitata sul microfono.
Tipi di trasduttori
Ci sono due tipi fondamentali di sistemi di ripresa che operano la trasformazione da energia sonora ad energia elettrica:
il microfono dinamico ed il microfono a condensatore.
Il primo tipo utilizza il fenomeno dell’induzione elettromagnetica: un elemento metallico viene posto all’interno di un campo
magnetico. Il movimento di questo elemento metallico (detto generalmente diaframma) all’interno del campo genera una
corrente elettrica con determinate caratteristiche. (Nella foto, lo Shure MS58, uno dei più diffusi microfoni dinamici).

Il microfono a condensatore, invece, è basato su un principio elettrostatico: all’interno del microfono viene disposto un
condensatore, costituito di due sottili lamine dette armature . Una delle due armature è mobile, in modo da essere sensibile alla
pressione sonora. Mediante l’utilizzo di un alimentatore (è questa la caratteristica che differenzia caratteristicamente il
microfono a condensatore da quello dinamico) il condensatore viene polarizzato, in modo che la carica che si viene a costituire
all’interno del condensatore a secondo della posizione del’armatura mobile fornisca una tensione ai capi del condensatore, la
quale, opportunamente amplificata, diventa il segnale in uscita del microfono. (Nella foto, uno dei microfoni a condensatore
“storici”, l’AKG 414).

Queste descrizioni seppur estremamente approssimative ci forniscono gli elementi fondamentali per distinguere le due categorie
di microfoni:
i microfoni dinamici, indipendenti da un’alimentazione, in quanto funzionanti grazie ad un magnete in esso contenuto, sono
molto più pratici e robusti, e possono ben applicarsi per la ripresa dal vivo, o per fonti sonore piuttosto forti (un rullante, ad
esempio), per le quali non ci sia bisogno di particolare attenzione.
I microfoni a condensatore, d’altro canto, necessitano di maggiore cura e sono più ingombranti a causa della necessità di una
alimentazione esterna, ma sono molto indicati per riprese in studio, ad esempio per la voce, che ha bisogno di una maggiore cura
nella ripresa e non ha, caratteristicamente, volumi molto alti (rispetto ad esempio al già citato rullante).

7
Queste indicazioni, ovviamente, sono di massima, e non vanno intese in senso assoluto; recentemente si utilizzano spesso
microfoni a condensatore sul palco, ad esempio, grazie a nuovi modelli che consentono un minore ingombro ed una minore
fragilità; come, d’altro canto, a volte si potrà utilizzare un microfono dinamico per la voce in studio quando lo si preferisca per
motivi particolari. Come in ogni cosa che riguardi le possibilità creative, anche la scelta del microfono non può essere
assoggettata a regole ferree, ma dipenderà da mille fattori, tra i quali il gusto personale.
Risposta direzionale e diagrammi polari
Non sempre fa comodo che un microfono sia ugualmente sensibile alla pressione sonora in tutte le dimensioni dello spazio.
Immaginiamo il caso in cui sia necessario registrare la voce di un uomo che cammina nella folla: un microfono che riprenda tutti i
rumori e le voci circostanti renderebbe confusa la registrazione, col rischio di far risultare inintellegibili delle porzioni del parlato.
Esistono per questo motivo microfoni unidirezionali, che sono in grado di riprendere solo i suoni provenienti dalla direzione in
cui sono puntati. Nel nostro caso dell’uomo nella folla, però, potrebbe farci piacere che una parte delle voci e dei rumori entri a
far parte della registrazione; nasce allora l’esigenza di microfoni con direzionalità particolari.
Ogni microfono possiede una sua specifica risposta direzionale, ed è buona norma osservare attentamente questa caratteristica
di un microfono prima di acquistarlo. La risposta direzionale di ogni microfono viene riportata mediante un particolare
diagramma, che si dice diagramma polare, ed è in genere riportata sulla confezione del microfono o nel manuale di
accompagnamento. Gli angoli di incidenza sono fissati come nel disegno qui di seguito:

Andiamo a vedere quali sono i diagrammi polari più caratteristici.


Viene detto omnidirezionale il diagramma relativo ad un microfono il cui trasduttore sia sensibile in tutte le direzioni a 360°.
Sono direzionali tutte le altre possibilità.
Un microfono bidirezionale è sensibile in due direzioni opposte l’una all’altra (una è quella che corrisponde alla pressione
esercitata sulla parte frontale del diaframma, l’altra alla pressione esercitata sulla parte posteriore), ed è detto anche figura a 8
o, in Inglese, Figure8, per la caratteristica forma “a 8″ assunta dal diagramma.
Un microfono cardioide è la combinazione di un omnidirezionale e di un bidirezionale, in modo da ottenere grafici particolari. A
seconda della percentuale dell’uno e dell’altro, si hanno vari tipi di cardioide, che si distinguono essenzialmente in cardioide
semplice, supercardioide e ipercardioide. Il nome di “cardioide” nasce dalla caratteristica forma del grafico, che ricorda un cuore
stilizzato. Vediamo in figura vari grafici. Da sinistra a destra, e dall’alto in basso (escludendo il primo, che è il grafico vuoto, non
compilato): omnidirezionale, cardioide, supercardioide, ipercardioide, bidirezionale.

Notiamo che il diagramma del microfono bidirezionale può essere orientato in qualsiasi altro modo (ad esempio con la maggiore
sensibilità a 0° e 180° invece che a 90° e 270°) a seconda della scelta del costruttore; quella in figura è solo una delle scelte
possibili. Altri diagrammi particolari che si possono incontrare, si ottengono in realtà con disposizioni stereofoniche, ossia con
l’uso di più trasduttori separati:

8
Risposta in frequenza
Un’altra caratteristica che bisogna valutare in un microfono è la sua risposta in frequenza.
Ogni microfono deve riportare la curva che rappresenta la sua sensibilità alla pressione a seconda della frequenza. Quello
rappresentato in figura è un grafico caratteristico:

In genere la sensibilità alle basse frequenze subisce notevoli variazioni a seconda della distanza del microfono dalla sorgente
sonora. Poiché può essere importante valutare questo parametro, in molti casi sono riportate diverse curve per le basse
frequenze, a seconda della distanza. Nella figura un esempio tipico di microfono per la voce (Shure Beta 58A):

Alimentazione esterna e alimentazione phantom


Un’ultima osservazione, prima di concludere questo tutorial introduttivo sui microfoni, è dedicata all’alimentazione dei
microfoni a condensatore.
Abbiamo detto che questi microfoni necessitano di un’alimentazione esterna per funzionare; eppure difficilmente ci capiterà di
vedere, come nei vecchi modelli, ingombranti valigette preposte all’alimentazione del microfono. Questo è dovuto all’utilizzo di
un particolare tipo di alimentazione, detta phantom (cioè fantasma, a causa del fatto che risulta, appunto, invisibile), la quale
viene fornita al microfono tramite i connettori audio che provengono dal banco mixer. E’ necessario, chiaramente, che il mixer
sia dotato della possibilità di fornire questa alimentazione, ma quasi tutti i mixer di recente fabbricazione offrono questa
funzione. La phantom viene applicata fornendo una corrente continua di +48V ai piedini 2 e 3 della linea microfonica bilanciata.

La scheda audio

9
Un elemento del quale è impossibile fare a meno per realizzare registrazioni in digitale con il proprio computer è la cosiddetta
"scheda audio" o più correttamente "interfaccia audio".
La scheda audio è infatti quell'interfaccia che consente al pc di acquisire e riprodurre dati audio, tramite una serie più o meno
nutrita di connessioni.
L'interfaccia può essere interna al pc o anche esterna, come vedremo più avanti.
La scheda audio realizza la conversione analogico/digitale dei dati in ingresso (A/D) e quella digitale/analogica dei dati in uscita
(D/A).
E' necessario dunque che la scheda audio sia dotata di convertitori, e che questi convertitori siano di buona qualità.
Le schede audio si distinguono per una serie di caratteristiche che le rendono estremamente differenti l'una dall'altra, e quindi
adatte ad esigenze diverse. Si passa infatti, a parità di qualità e di marca, da schede di minore prezzo a schede di prezzo molto
più elevato, a seconda delle caratteristiche offerte.
Tra queste caratteristiche possiamo individuare il numero e la tipologia di connessioni offerte, il tipo di interfacciamento al pc, i
driver disponibili e la relativa compatibilità con diversi software, altre caratteristiche quali la frequenza di campionamento, la
quantizzazione etc.
Le connessioni disponibili su una scheda possono variare di molto per numero e per tipologia, e i tipi di connessioni sono ormai
tali e tanti da poter ingenerare facilmente confusione a chi si avvicina da profano alla scelta di una scheda audio per il proprio
computer.
Distinguiamo allora innanzi tutto tra connessioni analogiche e connessioni digitali.
Le connessioni analogiche sono quelle, per così dire, tradizionali: agli ingressi andranno collegate le uscite di tastiere, registratori,
chitarre, bassi, processori di vario tipo; alle uscite analogiche andranno collegati sistemi di registrazione o l'impianto di
diffusione.
Gli ingressi digitali hanno la funzione di ricevere segnale da apparecchiature che gestiscono il segnale in digitale. Esempi di
apparecchiature che possono essere connesse in digitale sono i DAT, gli A-DAT, i lettori CD, molti processori di segnale (come ad
esempio gli amp-simulator), alcuni sintetizzatori o expander.
Vediamo quali sono i possibili formati dei connettori analogici e digitali.

Il Jack
Il jack è il più comune tipo di connettore analogico. Detto anche "connettore a banana" in una vecchia e ormai sorpassata
terminologia, il Jack ha due formati possibili dal punto di vista della dimensione, e altri due formati dal punto di vista, per così
dire, qualitativo.
Dal punto di vista delle dimensioni esistono due formati Jack: il più grande è il Jack da 1/4" (un quarto di pollice) o da 6,3 mm.
Questo è il formato standard professionale. Esiste però anche un formato più piccolo, che è quello comune delle uscite degli
auricolari dei cellulari o cuffiette dei mini riproduttori mp3: il Jack da 1/8" (un ottavo di pollice) o da 3,5 mm. Questo jack a volte
viene anche detto semplicemente "mini-jack". Tolte le dimensioni, i due tipi di Jack hanno identica struttura e funzionamento.
Dal punto di vista qualitativo i Jack si suddividono in bilanciati e sbilanciati, spesso anche detti stereo o mono.
Le due denominazioni hanno significati diversi, e si usano in contesti diversi pur indicando in modo inequivocabile gli stessi tipi di
Jack.
Il Jack bilanciato dispone di due connettori oltre alla massa: il Tip (punta) e il Ring (anello). La denominazione di "bilanciato"
deriva dal fatto che questo tipo di Jack è idoneo al trasporto di una linea bilanciata. In una linea bilanciata i due conduttori hanno
potenziale identico ma polarità opposta: ciò consente di ridurre le interferenze ed i rumori sulla linea. Infatti, una eventuale
interferenza che si producesse in un cavo bilanciato, giungerebbe a destinazione in due copie identiche, una per ogni connettore;
ma essendo la polarità dei conduttori opposta, la fase dei due segnali sarebbe opposta, e quindi sommando i due segnali il
disturbo verrebbe cancellato, lasciando invece intatto il segnale significativo.

Disponendo di due connettori, il Jack bilanciato è idoneo anche alla trasmissione di segnali stereo, come nel caso delle cuffie
monitor. In questo caso, però, entrambi i segnali viaggiano sbilanciati e quindi soggetti ad interferenze!
La terminologia corretta, dunque, vorrebbe che in questo caso si parlasse di segnale (e connettore) stereo sbilanciato. Nella
pratica si fa una certa confusione su questi termini, per cui cercate sempre di fare attenzione.

Nella terminologia professionale, si fa più propriamente riferimento a "Jack TRS" per intendere i Jack bilanciati o stereo, dove T
sta per Tip, R sta per Ring, S sta per Sleeve. Con "Jack TS" si intendono invece i Jack sbilanciati o mono, che sono dotati solo di Tip
e Sleeve.

Connettore XLR

Il connettore XLR, o anche connettore "Cannon", è un connettore standard professionale per la trasmissione di segnali analogici.

10
Un connettore XLR è analogo nella struttura ad un jack TRS, ossia dispone di due conduttori (detti "Hot" e "Cold") e della massa.
Un segnale condotto da un connettore XLR è dunque in genere un segnale bilanciato, anche se non è detto in realtà che
entrambi i conduttori siano collegati.

I connettori XLR vengono utilizzati con tutti i microfoni, ma ne sono dotate anche moltissime attrezzature professionali, a causa
dei loro vantaggi rispetto al connettore Jack: gli XLR infatti sono più robusti e, inoltre, possono essere bloccati con un apposito
sistema di Lock, cosa che impedisce la perdita improvvisa del segnale a causa di una trazione involontaria sul cavo.
Una curiosità: molti si chiedono quale sia il significato della sigla XLR.
Circolano molte interpretazioni, più o meno fantasiose, tra le quali si annoverano le seguenti: "eXtra Long Run" (forse riferito al
fatto che la linea bilanciata consente l'uso di cavi più lunghi); "eXtra LaRge" (rispetto al connettore jack TRS); "eXternal, Live,
Return" (questa è la più accreditata e indicherebbe nell'ordine i segnali Ground, Hot e Cold); "eXternal, Left, Right" (con
significato simile); "eXternal, Line, Return" (idem).
In realtà la storia di questo nome è ben diversa. L'origine dei connettori XLR è legata ad una compagnia di nome Cannon (e
questo è il motivo per cui ancora oggi questi connettori vengono detti "cannon"). La Cannon produceva una serie di connettori a
3 pin denominata "X Series". Questi connettori erano di buona qualità ma non erano provvisti di un sistema di blocco (in Inglese
"latch"), per cui tendevano a scollegarsi a causa di urti o strappi. Allora la Cannon costruì dei nuovi connettori muniti di un
sistema di blocco a scatto e cambiò il nome in "XL Series" (connettori X dotati di Latch). Si intravede già parte del nome... Il nome
XLR, con la R finale, si raggiunse quando il connettore femmina fu rimaneggiato ancora e i contatti furono inseriti (per la prima
volta) in un composto di robusta gomma elastica. Poichè "gomma" in Inglese si dice "rubber", il nome dei connettori femmina
divenne "Cannon XLR Series". In seguito la dicitura XLR si è estesa anche ai connettori maschi. In definitiva, dunque, XLR significa
"connettori Cannon serie X dotati di blocco (Latch) con i contatti in un composto di gomma (Rubber)".

Il protocollo MIDI
Tutti quelli che si accingono anche solo per curiosità a fare musica con un qualsiasi strumento elettronico, sia esso una tastiera o
un software dedicato, si sono imbattuti prima o poi nel MIDI.
Il MIDI è un linguaggio standard di comunicazione digitale utilizzato per scambiare informazioni tra strumenti musicali.
L’acronimo M.I.D.I. sta per Musical Instrument Digital Interface, ossia Interfaccia Digitale per Strumenti Musicali.
L’elenco di istruzioni MIDI viene detto protocollo MIDI ed è stato introdotto ufficialmente nel 1983 da un consorzio di produttori
con l’intento di permettere a macchine – anche se prodotte da diverse marche – di comunicare tra loro.
Per essere in grado di comunicare mediante il protocollo MIDI, un dispositivo deve essere dotato di un hardware specifico, detto
interfaccia MIDI, che fornisce le connessioni necessarie. Vedremo più avanti quali sono queste connessioni e come funzionano.
Una cosa che è necessario comprendere subito è che il protocollo MIDI non contiene informazioni audio: è importante infatti
distinguere immediatamente il MIDI dai formati audio (WAV, PCM, IFF, tanto per citarne qualcuno), evitando la confusione che a
volte si genera quando si incontra il formato .mid che è associato ai file che contengono informazioni MIDI.
Per capire invece che cosa il MIDI effettivamente è, immaginiamo una ipotetica situazione in cui abbiamo a disposizione due
tastiere – poniamo ad esempio due sintetizzatori – che dispongano entrambi di interfaccia MIDI, e che noi vogliamo sfruttare
questa possibilità. Colleghiamo allora queste due tastiere: per semplicità, limitiamoci a dire che ad una uscita (MIDI OUT) della
prima tastiera, collegheremo un ingresso (MIDI IN) della seconda. Bisogna tenere degli accorgimenti nell’effettuare questo
collegamento, ma noi per ora supponiamo che basti inserire il cavo per rendere attivo il collegamento e per trasmettere le
informazioni. Ora, accese entrambe le tastiere, teniamo il volume aperto sulla prima tastiera, che
è quella che invierà le istruzioni MIDI, in quanto collegata tramite un OUT (si dirà quindi che la prima tastiera è il dispositivo
Master), e mettiamo a zero il volume sulla seconda, che è invece la tastiera che riceverà i comandi MIDI, in quanto collegata
tramite un IN (e verrà detta dispositivo Slave, schiavo, cioè, del dispositivo Master). Andiamo allora a suonare la prima tastiera,
cioè il Master. Come è logico aspettarsi, sentiremo i suoni di questa tastiera (se le uscite sono collegate ad un’amplificazione,
ovviamente) e, andando a modificare il suono della tastiera, o a selezionarne un altro (detto in genere programma), udiremo
dalle uscite del sintetizzatore il risultato di questi cambiamenti. Proviamo ora ad invertire la situazione: togliamo il volume alla
prima tastiera e alziamolo alla seconda. Suoniamo ancora però la prima tastiera. Sentiremo stavolta i suoni della seconda
tastiera, pur non toccandone direttamente i tasti. Qualsiasi cosa facciamo sulla prima (suonare più o meno forte, utilizzare il
modulation wheel o modificare il pitch, incrementare di 1 il numero di programma utilizzato) avverrà sulla seconda (diamo per
scontato che tutte queste possibilità siano implementate e attive su entrambe le tastiere). I suoni che sentiremo saranno sempre
però quelli sintetizzati dalla seconda tastiera: se ad esempio il Master è una tastiera che dispone di suoni campionati da
strumenti classici, mentre lo Slave è un acido synth con suoni all’avanguardia, non potremo far altro che riprodurre questi ultimi
nella situazione descritta, e mai e poi mai dalla seconda tastiera sentiremo il morbido suono di un piano a coda presente invece
nei banchi di memoria della tastiera Master. Accade insomma che i dati MIDI generati dalla tastiera Master in termini di
pressione dei tasti e dei controlli della tastiera viaggiano tramite il collegamento MIDI e vengono applicati allo Slave; lo stesso
non avviene però per le caratteristiche timbriche che restano invece quelle dello strumento che genera il suono.

11
Questo esempio, che nella sua semplicità può apparire ingenuo, ci presenta però esattamente la situazione tipica per la quale il
MIDI è stato pensato: suonare uno strumento tramite un altro, conservando tutte le informazioni possibili della performance.
In pratica potremmo dire che una trasmissione MIDI contiene lo “spartito” della musica che lo strumento di destinazione dovrà
andare a riprodurre.
Vediamo innanzitutto quali sono le possibili connessioni hardware di un’interfaccia MIDI: esse si distinguono essenzialmente in
MIDI IN, OUT e THRU. Le connessioni IN e OUT agiscono esattamente come visto nell’esempio, e non hanno bisogno di
particolari spiegazioni. La porta THRU ha invece una funzione particolare: essa manda in uscita le istruzioni che il dispositivo ha
ricevuto sulla porta IN, rendendo così possibile configurare quella che viene definita cascata MIDI.

Un primo strumento (Master) genera il segnale MIDI, e attraverso una porta MIDI OUT lo invia ad un a porta MIDI IN di un altro
dispositivo (Slave). Quest’ultimo, oltre ad eseguire la parte di istruzioni che gli sono destinate, invia dalla porta MIDI THRU una
copia esatta delle istruzioni ricevute, che vengono ricevute da un ulteriore dispositivo Slave tramite il proprio MIDI IN, e così via.
C’è la possibiltà di trovare porte OUT/THRU: queste possono essere configurate per fungere da porte OUT o Thru a seconda della
necessità. I dati MIDI viaggiano su cavi a 5 pin (di cui però solo 3 utilizzati) in modo seriale, ossia uno di seguito all’altro. Questo
potrebbe sembrare un controsenso, in quanto spesso molte note vengono suonate contemporaneamente. In realtà, a meno di
eventuali problematiche a livello hardware. la velocità di trasmissione è sufficiente perché la serialità dei dati non venga
percepita dall’orecchio.

Dall’introduzione del protocollo MIDI ad oggi le istruzioni di base sono sempre le stesse, sebbene siano state introdotte nuove
istruzioni e nuovi formati. Andiamo qui di seguito a vedere quali sono le istruzioni principali.
Innanzi tutto parliamo dei canali. Un messaggio MIDI è indirizzato ad uno di 16 differenti canali disponibili (espansi a 32 o oltre in
certi casi, ma ci atterremo per ora ai messaggi e alle specifiche standard). Ogni canale costituisce in pratica l’indirizzo del
messaggio: se ad uno strumento è assegnato uno specifico canale, questo eseguirà solo le istruzioni relative a quel canale,
ignorando tutte le altre. La differenziazione delle istruzioni in canali consente la cascata MIDI di cui abbiamo parlato
precedentemente, in quanto consente ad ogni strumento di riconoscere le istruzioni ad esso assegnate. E’ possibile anche inviare
istruzioni su tutti i canali (OMNI) oppure istruire uno strumento in modo che riceva su tutti i canali.
E’ anche molto diffuso il caso in cui uno strumento multi timbrico possa ricevere dati su più canali differenti, assegnando ogni
canale ad un proprio strumento interno.
Ci sono poi quelle che vengono dette istruzioni di stato, in quanto definiscono lo stato di una specifica nota su un canale.
Le istruzioni di stato principali sono l’istruzione NOTE ON (nota attiva), che viene impartita nell’istante in cui si preme un tasto
(questa è un’immagine esemplificativa, in realtà le istruzioni MIDI possono essere scritte e inviate senza che sia
necessario suonare materialmente uno strumento) e l’istruzione NOTE OFF (nota inattiva) che viene impartita nell’istante in cui il
tasto viene rilasciato. All’istruzione di note on seguono informazioni quali la VELOCITY, che segnala l’intensità con la quale è
stato premuto il tasto. Vi è poi il comando di AFTERTOUCH, che definisce (su 128 valori possibili) quanta pressione viene
esercitata su un tasto dopo averlo premuto. All’aftertouch vengono in genere assegnate modifiche del suono (volume,
intonazione, modulazione) che avvengono sullo strumento ricevente.
Un altro messaggio di stato molto comune è il PITCH BEND, che si riferisce alle variazioni in altezza di una nota, indicando
modifiche di intonazione su 128 possibili valori. Un’istruzione molto utile è il PROGRAM CHANGE, in grado di assegnare un
determinato programma di uno strumento MIDI su un canale. Ad esempio, su una tastiera dove lo strumento 1 è un pianoforte,
e lo strumento 31 un basso, un PROGRAM CHANGE001 (abbreviato in PG001) assegnerà alla tastiera il suono di piano, con il
quale saranno suonate tutte le successive note su quel canale, fino ad un successivo PG031, con il quale si farà sì che tutte le
note suonate successivamente siano prodotte con il suono di basso.
Vi sono poi i messaggi di controller, come il pedale di sustain, il controllo del volume, un valore relativo alla sintesi del suono,
apertura di un effetto e così via, che sono specifici dei singoli strumenti, in base alle caratteristiche di ognuno, seppur variando
sempre nel range di valori da 0 a 127.

12
Chiudiamo questa veloce carrellata sulle istruzioni con due istruzioni un po’ particolari. La prima è denominata ALL NOTES OFF, e
dà un NOTE OFF simultaneo a tutte le note su tutti i canali; essa si rende necessaria quando, per errore, una nota lanciata con un
NOTE ON non venga chiusa dal NOTE OFF corrispondente. Spesso questa istruzione viene impartita con un tasto chiamato “MIDI
panic”, con riferimento appunto alla situazione in cui si senta una nota riprodotta da un qualche strumento senza però riuscire a
comprenderne la provenienza.
La seconda è il SYSTEM EXCLUSIVE, messaggi che possono essere interpretati solo da specifici modelli, quindi esclusivi, appunto,
di un determinato sistema. Il System Exclusive viene ad esempio utilizzato tra tastiere della stessa marca per trasmettersi dati
relativi a banchi di suoni (forme d’onda, caratteristiche dei controlli). Un System Exclusive inviato ad uno strumento non in grado
di interpretarlo restituirà semplicemente un messaggio d’errore.

Editing audio
L’editing audio è alla base del lavoro del fonico fondamentale per poter lavorare al meglio alla creazione e al montaggio di file
audio. Sono tanti i software di editing audio disponibili, gratuiti e non, che permettono il montaggio e il missaggio di tutti i
contributi audio che ogni giorno ascoltiamo in radio fra un talk e una canzone.
Tra i più noti ed utilizzati, disponibili anche in versioni gratuite (talvolta ridotte) citiamo:

Adobe Audition: forse è il software audio più usato almeno nelle radio Italiane e secondo molti il più adatto in tale ambito è il
corrispettivo dedicato al suono di photoshop contenuto nel pacchetto Adobe; è stato acquistato dalla stessa Adobe e sarebbe
semplicemente la versione modernizzata del caro vecchio Cool Edit che alcuni ancora usano. L’interfaccia è molto semplice e
intuitiva, divisa in pannelli estraibili dalla finestra principale che diventa anche componibile in base alle proprie esigenze
utilizzando anche alcuni pre-set. È possibile registrare e lavorare su una sola traccia mono o stereo (nel caso in cui si debba
semplicemente intervenire su un solo file da tagliare al volo), oppure si può passare alla visione multitraccia in cui si potrà
lavorare appunto a più tracce contemporaneamente che poi verranno mixate nell’esportazione finale. L’applicazione è
disponibile in versione prova gratuita ed è inoltre acquistabile dal sito Adobe secondo piani di pagamento mensili o annuali da un
costo minimo di 12 euro al mese fino a 300 euro annui con promozioni interessanti per enti scolastici o singoli studenti.

Pro Tools: è una vera e propria digital audio worksation DAW ed è il software più usato al mondo negli studi di registrazione per
la registrazione, il missaggio e la produzione audio in generale; di per sé è molto complesso ma non esiste fonico che si rispetti
che non lo sappia usare almeno nelle funzioni base. L’interfaccia può variare in base alle esigenze ma si presenta generalmente
con la finestra che comprende le varie tracce su cui si va a lavorare; è anche disponibile la visualizzazione “mixer” che permette il
controllo delle varie channelstrip singolarmente agendo quindi non più tanto sull’editing e sulle forme d’onda ma sul mix e
quindi sui volumi e su eventuali effetti. I migliori software di editing audio Il software è disponibile in varie versioni, da quella
gratuita (Pro Tools First) molto limitata in tante funzioni come il numero di tracce o il numero di progetti sui quali si può lavorare
contemporaneamente; inoltre sono disponibili le versioni complete a pagamento che hanno un costo che può andare dai 9
dollari al mese (la promozione più bassa è dedicata sempre agli studenti) fino alla versione hd completa che può costare anche
diverse migliaia di euro in un unico importo. Per poter utilizzare le versioni a pagamento del software è necessaria una licenza su
iLok (chiavetta usb che deve rimanere sempre collegata al pc durante l’utilizzo).

Logic Pro: altra DAW (digital audio workstation) di proprietà di Apple disponibile quindi, a differenza delle altre, solo su Mac.
Come per Pro Tools è molto utilizzato come software in ambito professionale negli studi di registrazione e anche in radio per la
produzione di materiale audio come sigle, jingle, liner o altro. L’interfaccia molto intuitiva nelle ultime versioni presenta la solita
schermata principale con visualizzazione sulle tracce o una seconda schermata “mixer” per andare ad agire anche in questo caso
sui singoli canali. Il costo è abbastanza contenuto ed è attualmente di 229,99 euro su App Store.

Cubase: anche questa DAW della Steinberg molto simile alle precedenti è fra le più usate questa volta disponibile Windows e
Apple. Cubase all'inizio serviva solamente per registrare ed editare file MIDI, solo successivamente sono state introdotte funzioni
per la registrazione di audio. L’interfaccia standard presenta sempre una visione sulle tracce e come al solito è disponibile la
visuale “mixer”. È disponibile une versione trial di 30 giorni oltre che le versioni a pagamento.

Audacity: è il software più semplice e intuitivo, ma soprattutto gratuito e open source per l’editing audio. Viene usato per
iniziare ed imparare ma molti lo continuano ad utilizzare per la sua versatilità. L’interfaccia è semplice e presenta una visuale
standard con le varie tracce sovrapposte come in tutti i multitraccia. Sono disponibili vari effetti di proprietà di audacity che è
possibile inserire sulle varie tracce ed è inoltre possibile lavorare anche a file più complessi. Di altri software per l’editing audio
ce ne sono molti come Sony Sound Forge o Adobe Sound Booth ma per oggi si fermiamo su questi che abbiamo appena descritto
che sono fra i più usati nel settore radiofonico.

Audacity è un software di editing audio multitraccia e multipiattaforma, distribuito sotto la GNU General Public License.
Il programma di base permette la registrazione di audio multitraccia, la loro modifica e il relativo mixaggio, inoltre grazie a plugin
già inclusi è possibile intervenire su diversi parametri tra cui volume, velocità, intonazione, formato dei file salvati,
normalizzazione, ecc.
Le caratteristiche di Audacity lo rendono adatto sia per un uso domestico che in ambito semiprofessionale. Alcuni esempi di
utilizzo possono essere: l'acquisizione da qualsiasi sorgente audio tramite computer e registrazione in tracce digitali, come per

13
esempio la registrazione di voci e parti strumentali e il loro successivo mixaggio; la digitalizzazione di supporti analogici di vario
genere, per esempio dischi in vinile o vecchie musicassette; la rimozione di rumore di fondo dalle registrazioni e più in generale
l'editing[1] di audio digitale.

L’equalizzatore audio (acronimo EQ) è uno strumento con cui almeno una volta nella vita probabilmente abbiamo avuto a che
fare tutti, fonici e non. Basti pensare alle famose manopole etichettate bass, middle e treble tipiche dello stereo o
dell’amplificatore della chitarra. Non tutti però sanno che quelle semplici manopole rappresentano quello che per un tecnico del
suono è lo strumento più importante.

Per un ingegnere del suono l'equalizzatore audio rappresenta ciò che per un barbiere rappresentano le forbici o per un contabile
la calcolatrice: l'attrezzo degli attrezzi.
L’invenzione dell’equalizzatore audio deriva essenzialmente dall’esigenza di modificare lo spettro di un segnale audio.
I motivi per cui può rendersi necessario modificare lo spettro di un segnale sono diversi e li vedremo tra poco.
Storicamente, i primi equalizzatori audio erano dispositivi elettronici integrati all’interno di ricevitori audio e fonografi per
migliorare la qualità del suono.
L'equalizzazione è una tecnica di trattamento dei segnali audio e rappresenta il procedimento di filtraggio a cui è sottoposto un
segnale audio per variarne il contenuto timbrico e si effettua con un apparecchio detto equalizzatore, che può essere di vari tipi,
sia analogici che digitali.
I campi di applicazione dell'equalizzazione sono molteplici:
- correzione timbrica durante la ripresa di suoni
- correzione durante la fase di post produzione della timbrica di segnali registrati
- eliminazione / riduzione di fruscii, rumori ricorrenti
- creazione di suoni nuovi, manipolati o simulati (simulazione di una telefonata in uno spettacolo)
- correzione timbrica generale durante le operazioni di mastering
- correzione dell'acustica di uno spazio dove viene riprodotta musica con un impianto di sonorizzazione (room acoustic
compensation o anche detta "linearizzazione").

Nel contesto del sound engineering, i motivi per cui si rende necessario l’utilizzo dell’equalizzatore sono: ♦ eliminare
componenti indesiderate, come il rumore di alimentazione di un amplificatore; ♦ aumentare chiarezza e definizione
del suono di una traccia o dell’intero mix; ♦ aumentare (o diminuire) la “grossezza” (bigness) del suono di una traccia
o dell’intero mix; ♦ contrastare il fenomeno del mascheramento in frequenza, in modo che le tracce del mix leghino
meglio insieme.

Tipi di equalizzatori
A seconda della tipologia di progettazione, gli equalizzatori si dividono essenzialmente in equalizzatori grafici ed equalizzatori
parametrici.
Gli equalizzatori grafici dividono l'intero spettro musicale in più porzioni e l'utente può regolare per mezzo dei regolatori a
cursore il livello di quella determinata porzione, che corrisponderà ad esempio ai bassi, oppure medio bassi, ecc ecc.
Il numero di tali porzioni e le frequenza centrali di ogni porzione dipendono dall'applicazione d'uso: un semplice amplificatore da
hi-fi possiede un equalizzatore a 2 bande (porzioni) ovvero bassi ed acuti.
Equalizzatori più sofisticati possiedono anche una terza banda (medi), o 5 bande (bassi, medio-bassi, medi, medio-acuti, acuti), o
7 bande (e in tal caso si parlarla di equalizzatore "a ottava", essendo le frequenze centrali di ogni banda il doppio della
precedente, come le ottave musicali), o ancora a 15 bande (a 2/3 di ottava).
Gli equalizzatori destinati all'uso professionale arrivano ad avere 31 bande di regolazione e sono detti "a terzi d'ottava" poiché
ogni cursore copre 1/3 di ogni ottava, da 20 Hz a 20.000 Hz con passi minimi (esempio 16 Hz - 20 - 25 31 40 50 63 80 100 120 150
e sono particolarmente adatti nelle operazioni di mastering e di correzione dell'acustica dell'impianto audio installato).
In sintesi, dunque, gli equalizzatori grafici sono costituiti da un numero prefissato di filtri, ciascuno dei quali agisce su
un range di frequenze specifico. Tipicamente, maggiore è il numero di filtri che compongono un equalizzatore
grafico, minore è la larghezza del range di frequenze (bandwidth) su cui opera ciascun filtro. Attraverso

14
l’equalizzatore grafico è possibile modificare l’ampiezza del segnale in ognuna delle bande prefissate, manipolando
appositi fader.

Gli equalizzatori parametrici sono più complessi, ma permettono di effettuare correzioni evitando particolari danni al segnale,
essendo utilizzati particolarmente nelle riprese dei suoni in spettacoli dal vivo, dove gli errori e le pesanti correzioni timbriche
possono essere dannosi.
Un equalizzatore parametrico è in media dotato nei mixer analogici di 4 filtri invece di 7, 15 o ancora 31 come nei tipi grafici, ma
ognuno di questi filtri può essere regolato nei suoi parametri, da cui il nome. Oltre al livello della banda di frequenza interessata,
è possibile "sintonizzare" il filtro su una determinata frequenza di intervento ed è inoltre possibile regolare l'ampiezza di tale
porzione, detta "Q". Tali possibilità di regolazione consente al fonico di intervenire in maniera chirurgica su risonanze, inneschi e
quant'altro, senza influenzare pesantemente il segnale audio come avverrebbe ad esempio con un equalizzatore grafico a poche
bande. Va detto poi che nella maggior parte dei mixer professionali la sezione filtri incorpora sia almeno 4 equalizzatori
parametrici, che due grafici (bassi e acuti) detti shelving, atti a velocizzare le operazioni, oltre alla presenza di filtri passa alto
regolabili (utili a diminuire i rumori dei calpestii sul palco). L'arrivo della tecnologia digitale di qualità nel campo dei mixer audio
professionali ha esteso la possibilità di avere ancora più filtri ed addirittura di configurarli in una data maniera, richiamabile a
piacere.
Sintetizzando, gli equalizzatori parametrici offrono maggiore controllo, in quanto danno la possibilità di scegliere il centro banda
e la bandwidth di ciascun filtro. In altre parole, l’equalizzatore grafico è più semplice da utilizzare e comodo in molte situazioni,
mentre l’equalizzatore parametrico si presta meglio nel caso di modifiche che richiedano maggior precisione.

I filtri
I filtri vengono utilizzati per eliminare delle bande di frequenze dal segnale originario.
Generalmente vengono realizzati con una circuiteria passiva e sono identificati da una frequenza di taglio f c (sempre calcolata nel
punto in cui il guadagno subisce una perdita pari a 3dB).
I due tipi di filtro più importanti sono il filtro passa-basso (LPF - Low Pass Filter) e il filtro passa-alto (HPF - High Pass Filter).
Il primo permette il passaggio delle sole frequenze minori della frequenza di taglio o meglio le frequenze maggiori della
frequenza di taglio vengono attenuate in maniera sempre maggiore fino a diventare trascurabili. Il secondo compie le stesse
operazioni del primo consentendo il passaggio delle sole alte frequenze.
Tipiche utilizzazioni di filtri passa-alto sono l'eliminazione di vibrazioni a bassa frequenza come quelle generate da musicisti che
camminano su un palco su cui sono poggiati i microfoni o come il rumore di fondo generato da un condizionatore d'aria.
Filtri passa-basso vengono invece usati per esempio per eliminare fruscii o rumori ad alta frequenza.
Un filtro passa banda è un dispositivo passivo che permette il passaggio di frequenze all'interno di un dato intervallo
(la cosiddetta banda passante) ed attenua le frequenze al di fuori di esso.

Il compressore audio
La compressione del livello audio (anche compressione della gamma dinamica, chiamata anche compressione
dell'intervallo dinamico, compressione del volume, oppure DRC, acronimo di dynamic range compression) è il
processo che modifica l'intervallo dinamico di un segnale audio. La compressione è utilizzata durante la registrazione
in studio, oppure in applicazioni "live" cioè come rinforzo del segnale dal vivo, o ancora in trasmissione radiofonica al
fine di ottimizzare il livello del segnale sonoro, in modo che esso venga percepito al meglio, qualunque sia il sistema
di riproduzione in uso. In pratica, è un sistema utilizzato per ridurre l'escursione dinamica di un segnale: tale
intervento può incidere sulla fedeltà del suono. Esso consiste in un apparecchio elettronico che realizza un controllo
automatico del livello di un segnale audio, con lo scopo di ridurlo. In origine esso è nato per modificare i segnali in uscita
da microfoni e trasmettitori audio, al fine di evitare eventuali distorsioni di ampiezza che potrebbero verificarsi durante la
ripresa e che impoverirebbero significativamente la qualità. Un caso particolare di compressione è il limiter, che comprime in
modo estremamente veloce e garantisce l'abbattimento del livello in caso di picchi.
Il compressore appartiene alla famiglia dei cosiddetti processori della dinamica.
La compressione può essere descritta, in termini semplici, come un'operazione di controllo automatico del volume. I suoni forti
che superano una certa soglia vengono ridotti di volume, mentre i suoni deboli non vengono modificati. Tale processo è
conosciuto come compressione verso il basso (downward compression). Per converso un intervento che renda più forti i segnali
che giungono deboli all'ingresso e non intervenga su quelli che abbiano già un livello elevato è chiamato compressione verso
l'alto (upward compression). In questo modo viene ridotta la gamma dinamica di un segnale audio in modo da rendere il segnale
compatibile con le limitazioni tecniche delle apparecchiature audio, migliorarne l'udibilità in ambienti rumorosi o per ragioni
estetiche. In un ambiente rumoroso il rumore di fondo può superare in volume i suoni più deboli (come ascoltare la radio
mentre si guida). Un livello di ascolto che non risulti fastidioso per i suoni più forti rende inudibili i suoni deboli, coperti dal
rumore; al contrario, un livello di amplificazione che permetta di apprezzare i suoni deboli rende troppo forti i picchi del
materiale ascoltato. La compressione viene utilizzata per rendere più tollerabili sia le parti forti sia quelle più deboli con uno

15
stesso volume d'ascolto. Un compressore riduce l'intervallo dinamico di un segnale audio se la sua ampiezza supera una certa
soglia.
Caratteristiche del compressore
il compressore agisce quando il segnale raggiunge una certa soglia o threshold, ossia un certo valore minimo prestabilito,
regolato dall’utente, e che la “quantità” di compressione applicata viene stabilita mediante controlli di ratio e gain, oltre a
controlli più fini come attack e release e knee. Con il valore di attacco (generalmente compreso tra 0.1 ms e 200 ms) si stabilisce
quanto velocemente la circuiteria interna del compressore/limiter debba reagire ai cambiamenti nel livello del segnale
d’ingresso. Quanto più lungo viene settato il tempo di attacco, tanta più parte della dinamica del segnale originale viene lasciata
inalterata prima che entri in azione il compressore. Con tempi d’attacco più lenti, si ottiene un suono più omogeneo, che tende a
mantenere le caratteristiche dinamiche del segnale originale, ma in compenso il compressore non reagirà molto rapidamente a
cambi di livello subitanei, e questo è un fattore di cui tenere conto nella regolazione del tempo di attacco. Vediamo un paio di
esempi chiarificatori: con un tempo di attacco lungo su un suono di chitarra, si potrà ottenere una compressione che mantenga il
classico attacco della pennata del chitarrista. Analogamente, un tempo di attacco lungo su una cassa di batteria conserva una
parte del suono iniziale tipico di questo strumento. In questi casi, scegliere un tempo più lungo può rendere un suono più
naturale e che non snatura le caratteristiche degli strumenti presi in esame. Un attacco cortissimo è invece necessario quando si
usi un limiter per evitare forti picchi che possano danneggiare l’impianto. Il tempo di release (generalmente compreso tra 50 ms
e 5 secondi) determina quanto impiega il compressore ad interrompere la propria azione. Con tempi di rilascio brevi, il
compressore riproduce ogni minima variazione nel livello d’ingresso, il che può produrre un effetto irregolare di “ondulazione”
che riduce la dinamica ma aumenta il livello di uscita. Tempi di rilascio più lunghi tendono a schiacciare maggiormente il segnale,
producendo un output più basso ma mantenendo maggiormente le caratteristiche della dinamica del segnale originale. Un
tempo di release molto lungo può essere utilizzato come un effetto, e infatti negli anni ’60 una tecnica di registrazione molto
diffusa utilizzava lunghi tempi di rilascio nella compressione della batteria.

Curva di compressione (knee)


Compressione con curva dolce o dura; Tramite questo controllo è possibile decidere quanto "smussato" debba diventare l'angolo
della curva di risposta. Un passaggio dolce (soft knee) permette di aumentare gradualmente il livello di compressione (proprio
mentre il segnale di ingresso aumenta) fino a raggiungere il valore prefissato, e produce risultati naturali. Una curva dolce riduce
l'effetto sonoro causato dal passaggio tra lo stato "normale" e lo stato "compresso" del segnale; questa caratteristica risulta utile
specialmente per variazioni di guadagno più pronunciate.
Gain compensation A causa del fatto che la compressione si traduce in una perdita di guadagno, è solitamente presente un
controllo che consente di aggiungere una quota fissa di volume al segnale di uscita. Ciò permette di sopperire alla perdita del
livello sonoro complessivo. Grazie a questo la compressione ha l'effetto di potenziare i passaggi più leggeri (che hanno volume
più basso) all'interno di un brano, in modo tale che alla fine l'estensione dinamica risulterà schiacciata; In altre parole, se si
guarda all'effetto netto i suoni forti risulteranno indeboliti, mentre quelli deboli potenziati.
Differenza tra limiter e compressore
Poichè la circuiteria è quasi identica, la reale distinzione tra un compressore e un limiter sta nel modo in cui il dispositivo viene
usato. Molti di questi dispositivi sono progettati per svolgere entrambe le funzioni. Essi hanno un’ampia gamma di impostazioni
del valore di soglia e del valore del rapporto di compressione (ratio), e a volte anche dei valori dei tempi di attacco e di rilascio, e
sono quindi conosciuti come compressori/limiter.

Il delay, (dall'inglese per "ritardo" e "eco") è un effetto usato per modificare il suono di strumenti musicali elettrici o
amplificati. Viene anche talvolta impropriamente chiamato eco. La funzione generale del delay consiste nel
registrare il suono in ingresso e riprodurlo con un determinato ritardo temporale. Solitamente il suono ritardato
viene aggiunto al segnale originale, anziché sostituirlo; in questo caso l'effetto complessivo è simile a quello dell'eco.
Il concetto è analogo a quello del riverbero: la differenza principale fra questi due tipi di effetti sonori riguarda la
scala dei tempi resi disponibili al musicista. Infatti il riverbero riproduce il suono originale con un ritardo minimo,
inferiore al decimo di secondo, mentre un delay può produrre il suono ritardato anche di decine di secondi.
Il suono ritardato può a sua volta essere reintrodotto nel sistema di delay, producendo una sequenza di echi.
In genere il suono ritardato è riprodotto a un volume inferiore all'originale, cosicché la sequenza di echi sfuma nel
tempo, come un'eco fisica in determinate condizioni di acustica.

16
In genere un delay offre al musicista almeno tre possibilità di controllo sull'effetto applicato:
la scelta della lunghezza temporale del ritardo, consentendo di mandare a tempo gli echi rispetto al ritmo del brano musicale,
la scelta del numero massimo di echi,
e la scelta del volume degli echi.
Si tratta in genere di un effetto a pedale che consente di inserirlo o disinserirlo a piacere senza dover togliere le mani dallo
strumento evitando interruzioni.

Riverbero o reverbero è un fenomeno acustico legato alla riflessione dell'onda sonora da parte di un ostacolo posto davanti alla
fonte sonora. Il riverbero ha aspetti negativi, come il rischio di mascheramento delle sillabe del parlato o del fraseggio musicale,
e positivi, come il rinforzo dell'intensità della sorgente, a seconda della ricombinazione in fase e o controfase dell'onda riflessa
con quella emessa dalla sorgente (interferenza tra onde).
Il riverbero viene ricreato artificialmente per essere applicato durante spettacoli musicali o in studio di registrazione alla voce ed
agli strumenti musicali per simulare esecuzioni musicali in spazi ampi o per conferire maggiore profondità ad un suono. Per
simulare l'effetto del riverbero sono state implementate soluzioni diverse nel tempo, beneficiando del progresso tecnologico.

I plugin nei software audio


Definizione: Il plugin in campo informatico è un programma non autonomo che interagisce con un altro programma
per ampliarne o estenderne le funzionalità originarie. Ad esempio, un plugin per un software di audio permette
l'utilizzo di nuove funzioni non presenti nel software principale.
I plugin software per applicazioni audio hanno avuto negli ultimi anni un’espansione incredibile, dovuta alla comodità intrinseca
del sistema ed all’enorme sviluppo che il settore ha conosciuto.
L’Hard Disk recording ha beneficiato moltissimo dell’introduzione dei plugin, che ha consentito a molti appassionati di
cominciare ad utilizzare effetti e strumenti prima inarrivabili. Fino a pochi anni fa l’utilizzo di effettistica di qualità – unità di
riverbero, compressori, filtri digitali eccetera – era riservato ai professionisti che lavoravano nei grandi studi di registrazione, e
che potevano permettersi di sostenere costi che si misuravano in decine di milioni di lire. Per gli appassionati c’era poco da fare:
acquistare un piccolo multi-effetti economico era l’unica scelta possibile, considerato che il costo elevato – e anche l’ingombro –
delle macchine professionali, le rendevano inaccessibili per i piccoli studi. Stesso discorso poteva essere fatto per sintetizzatori,
organi, pianoforti etc: superato l’acquisto di un paio di strumenti, il musicista e tecnico in erba era costretto a fermarsi per
dedicare ad altro l’utilizzo delle proprie finanze. Oggi, grazie alla diffusione dell’Hard Disk Recording, ed all’enorme sviluppo nel
campo del software audio, la situazione è davvero molto cambiata. Quasi tutti i software audio, infatti, consentono ormai
l’utilizzo di plugin. Ogni azienda, per la verità, utilizza un proprio sistema, ma la tendenza ad aumentare la compatibilità è
evidente, il che lascia sperare che in un prossimo futuro la situazione potrebbe essere ancora migliore.
Un plugin è in generale – sia nel campo dell’audio che ad esempio della grafica o del video – un software “accessorio”, che non
può essere utilizzato da solo, ma che deve essere richiamato da un altro programma che funge da “ospite”. Il programma
principale viene detto “host” (che in Inglese significa appunto “ospite”), mentre il plugin svolge una funzione addizionale, che il
software host non è in grado di svolgere da solo, o che il plugin svolge in modo migliore.
Gli effetti che possono essere richiamati da un sequencer sono ad esempio dei plugin.
Possiamo installare un software-compressore, e far si che il sequencer lo utilizzi su una o più tracce. Oppure possiamo installare
un software-synth, e farlo suonare da una delle tracce MIDI del sequencer che funge da host.
Spesso i software realizzati come plugin sono in realtà in grado di funzionare anche al di fuori di un software host. In questo caso
si dice che il software può funzionare anche come “stand alone”. Il termine “plug-in” viene dal verbo inglese “to plug” che
significa letteralmente “inserire la spina”, o “collegare”, mentre il termine “plug” da solo si riferisce ad una spina o spinotto.
Il termine affonda la sua origine nel mondo dei sintetizzatori analogici, quando per collegare più macchine – musicali e non – era
necessario realizzare collegamenti fisici. Un esempio caratteristico è quello dei moduli del Moog, che venivano connessi tra loro
utilizzando cavetti jack, i “plug”, appunto.
Ogni software host controlla i suoi plugin tramite tecnologie specifiche, ossia tramite driver preposti alla gestione dei software
plugin. Poiché ogni casa produttrice di software ha sviluppato il proprio sistema di gestione dei plugin indipendentemente, è
ovvio che esistano svariati sistemi diversi e incompatibili, anche se un software host può gestire correttamente un certo numero
di sistemi.
I sistemi più utilizzati sono DirectX e VST per i sistemi Windows, AU, RTAS, TDM e MAS per i sistemi Mac.
L’installazione di un plugin richiede in genere di copiare i file che lo compongono (nel caso più semplice si tratta di una dll) in una
specifica cartella del programma host. Nei prodotti Steinberg (cubase), ad esempio, c’è una apposita cartella di nome VST.
I plugin, come abbiamo visto, non sono solo necessariamente degli effetti: possono anche essere strumenti virtuali, come
sintetizzatori o campionatori, che aggiungono le proprie funzionalità alle capacità del software host.

I virtual instrument vengono controllati dalle tracce MIDI del software o da strumenti MIDI esterni.
I sistemi per la gestione dei virtual instrument sono gli stessi degli effetti virtuali (VST, DirectX, AU, TDM etc) ma vengono
contrassegnati da una “i” finale: ad esempio i virtual instrument che si basano su tecnologia VST sono detti VSTi, quelli basati su
tecnologia DirectX (che è spesso abbreviato in DX) vengono detti DXi, etc. E’ naturale che è necessaria una certa dose di buon
senso nell’uso dei plugin. sebbene il numero massimo di plugin utilizzabili contemporaneamente nello stesso programma non sia

17
fissato dagli autori dei software, è’ ovvio che aggiungere plugin all’infinito non è possibile. Il limite viene raggiunto in genere
quando il carico sulla CPU e sulla RAM diventa eccessivo. E’ perciò buona norma fare un utilizzo intelligente dei plugin, evitando
un inutile accavallamento di strumenti ed effetti. Quando si stiano utilizzando molti strumenti virtuali, e non sia possibile fare a
meno di qualcuno di essi, una buona idea consiste nel convertire tutti i virtual instrument da tracce MIDI a tracce audio. In
questo modo viene ridotta la quantità di calcoli che deve effettuare il processore, e il software può prendere un po’ di respiro.
AU sta per AudioUnit.
AudioUnit è la tecnologia per il controllo dei plugin introdotta da Apple per Mac OS X. I plugin AU vengono utilizzati, ad esempio,
dal noto sequencer Logic Pro di Apple. I plugin AudioUnit vengono gestiti al livello del sistema operativo, e questo può dare un
certo vantaggio ai programmatori in quanto in questo modo ci sono due motori separati per la GUI (interfaccia grafica) del plugin
e per la gestione dell’audio relativo al plugin, consentendo un maggior impiego di risorse per entrambi.
VST sta per “Virtual Studio Technology”.
E’ una tecnologia real time introdotta nel 1996 da Steinberg per consentire di gestire i plugin all’interno del software Cubase.
I plugin VST sono attualmente utilizzati in moltissimi software, sia su piattaforme Windows che su Mac OS X.
Le differenze principali tra VST e Direct X stanno nel fatto che VST può essere utilizzato si su PC che su Mac, e nella gestione della
latenza che è molto migliore con VST.

Corso di Informatica Musicale A.A. 2018/2019


Istituto Superiore di Studi Musicali A. Toscanini

18

Potrebbero piacerti anche