.dsy:it. - [HAUS]Risposte a domande d'esame

.dsy:it.
//www.dsy.it

[HAUS]Risposte a domande d'esame

Posted by Voodoo on 08-01-2007 09:45

Sono in possesso di una ventina di domande circa,riguardanti precedenti scritti di Haus. Inizio ora e continuo per tutto l'arco della giornata di oggi a buttar dentro le risposte,rieditando continuamente il post. Sono superbenaccette le correzioni delle panzane e le integrazioni con materiale ritenuto più idoneo,così come l'espressione di qualsiasi dubbio.
Esame Giugno 2004 (quello sul sito del LIM):

Descrivere le tecniche di quantizzazione differenziale del suono, con particolare riferimento alle componenti di rumore che le caratterizzano

La quantizzazione differenziale consiste nel codificare la differenza tra un valore campionato e il successivo invece dei valori stessi. A differenza della quantizzazione lineare, che essendo istantanea non richiede memoria, la quantizzazione differenziale richiede tanta memoria quanta necessaria per la codifica del campione precedente all'attuale.
Tra queste abbiamo la Delta modulation (DM), metodo di codifica del segnale campionato che si basa sull’approssimazione del valore istantaneo del segnale mediante somma o sottrazione di un quanto di ampiezza δ. Questo metodo consente di avere un errore che non supera mai ±δ,purchè valga la condizione di avere una sufficiente frequenza di campionamento (altrimenti si introducono altri transienti).
Il rumore si esprime così:
```
code:
fk(t)=f(t) + eGk(t) + eSOK(t) 
```
dove eGk(t) è la componente di rumore dovuta all’intervallo di DM (errore di granularità) mentre eSOK(t) è la componente di rumore dovuta ai transienti in cui l’errore può eccedere ±δ (errore di sovraccarico).
Sono estensioni della DM,l’ADM (modulazione delta adattiva) in cui il quanto di ampiezza δ,su cui si basa il metodo,viene variato adattivamente quando si incontra un transiente,così da eliminare/limitare la componente di errore di sovraccarico nei transienti.
Un'altra tecnica è la DPCM,che consiste sempre nel codificare la differenza tra un valore campionato e il successivo invece dei valori stessi ed è simile alla DM ma al posto di un bit usa una parola di codifica costituita da un certo numero N di cifre binarie per ogni campione. La quantizzazione differenziale non introduce perdita di informazione frequenziale e consente una compressione della codifica tanto più vantaggiosa quanto più il segnale f(t) è caratterizzato da una banda in bassa frequenza (corrisponderebbe ad una derivata del segnale caratterizzata da valori modesti e quindi a un intervallo più stretto di valori dacodificare e trasmettere). L’errore di quantizzazione è uguale a quello della DM. Esistono varianti ed estensioni di questo modello come ADPCM,metodo adattivo di quantizzazione differenziale,dove viene variata la grandezza del passo di quantizzazione per permettere un'ulteriore riduzione della larghezza di banda richiesta.
Descrivere le caratteristiche funzionali dei coder/decoder MP3.

L'encoder riceve in input un segnale PCM e lo legge a blocchi di 384,576 o 1152 campioni,in funzione del formato MPEG/Layer utilizzati. Per ognuno dei blocchi esegue le seguenti azioni:
- 1)si convertono i campioni PCM nel corrispondente dominio frequenziale tramite Banco di filtri polifasico seguito da una Trasfromata Coseno Modificata (MDCT) (il segnale passa dal dominio del tempo alla corrispondente rappresentazione frequenziale);
- 2)si usa un modello psicoacustico per analizzare lo spettro del segnale (calcolato con la Trasfromata di Fourier) e definire un livello di soglia di udibilità SMR (Signal To Mask Ratio) sfruttando i principi acustici dell’apparato uditivo umano. Il modello fornisce al quantizzatore non lineare l'informazione riguardo quali informazioni sono prcepibili o meno;
- 3)il quantizzatore non lineare codifica numericamente lo spettro ricevuto dal banco di filtri ibrido in funzione dell’importanza di ogni banda di frequenze definita dal modello psicoacustico (se il modello dice che una certa banda viene poco percepita,verrà codificata con pochi bit altrimenti viceversa). Si vuole una quantizzazione dello spettro tale per cui il rumore di quantizzazione introdotto si trovi al di sotto dell’SMR fornita dal modello psicoacustico.
- 4)la codifica numerica dello spettro frequenziale generata dal quantizzatore non lineare viene impacchettata secondo la sintassi dello standard MPEG utilizzato (l’algoritmo MPEG Layer-3 prevede un ulteriore compressione con l’algoritmo di Huffman,metodo di codifica loseless).

Il decoder riceve in input uno streaming MPEG/Audio e per ogni frame effettua le operazioni seguenti:
- 1)Spacchettamento: reperisce i frame,legge le informazioni codificate e ne estrae lo spettro (per le codifiche MP3,qui c’è anche una decodifica Huffman).
- 2)Banco di filtri ibrido Inverso: prende lo spettro del segnale e genera i corrispondenti campioni PCM (384,586,1152) da dare in input al DAC della scheda audio o da scrivere su file WAV/AIFF.
Descrivere la codifica EFM (Eight-to-Fourteen Modulation).

La codifica dell’informazione nei dischi ottici viene effettuata codificando blocchi di 8 bit di informazione in parole di codifica di 14 bit concatenate tra loro mediante parole aggiuntive di 3 bit (merging bits) ciascuna (codifica EFM – Eight To Fourteen Modulation). Ecco i criteri adottati:
- 1)il passaggio da 8 a 14 bit è basato su una tabella di corrispondenza tra le 2^8 (256) possibili parole di 8 bit e 256 delle 257 parole di 14 bit che soddisfano la proprietà di avere sequenze di zeri lunghe almeno 2 e al massimo 10 tra una cifra 1 e la successiva: 14 bit è appunto la minima lunghezza della parola di codifica che soddisfa tale proprietà. Parole come 01010000000000 e 01000000000000 non sono accettabili perché hanno seuqneze di zeri inferiori a due per la prima e superiori a 10 per la seconda,mentre 0100100010000 e 10000000100000 sono accettabili.
- 2)i 3 bit aggiuntivi tra una parola di codifica e la successiva servono per evitare di non rispettare la proprietà su indicata nell’area di giunzione. Le triple possibili sono solo 4: 000,001,100,010 e tra queste viene scelta di volta in volta quella che minimizza la DSV (Digital Sum Value).
- 3)La ridondanza per la correzione degli errori viene aggiunta a queste parole di 14+3 bit nella misura di un terzo rispetto all’informazione codificata (1 byte di ridondanza ogni 3 byte di informazione).
- 4)Infine ai frames viene applicata la tecnica di interleaving per distribuire eventuali raffiche di errori (imperfezioni o danneggiamenti del supporto) in differenti parole di codifica.
Illustrare e dare un quadro comparativo delle diverse modalità di rappresentazione dell'informazione temporale:
- nel segnale audio,
- nelle sequenze MIDI
- nella codifica dell'informazione musicale di una partitura

Ci devo pensare,se avete idee intanto..
Illustrare un modello di analisi/sintesi del suono di tipo additivo

Partendo dal presupposto per il quale il timbro caratteristico di un dato strumento è prodotto dalla fondamentale più una determinata distribuzione delle armoniche, è possibile ricreare un suono naturale partendo dalla somma di un certo numero di frequenze fondamentali (segnali sinusoidali) e distribuendole nello spettro sonoro. La somma avviene per addizione di ogni ampiezza istantanea. Tale tecnica, pur permettendo teoricamente di poter riprodurre qualsiasi suono esistente, in realtà è di estrema complessità; infatti abbiamo la necessità di controllare un numero elevatissimo di fondamentali, che molto probabilmente andranno modulate individualmente, per ottenere una risposta convincente all'ascolto.
Il modello additivo fa parte della famiglia dei modelli timbrici matematici.
Descrivere la regola di scatto di una transizione nelle reti di Petri musicali, dettagliando gli effetti su tutti i nodi connessi alla transizione, inclusi eventuali oggetti musicali associati ai posti.

Una transizione è abilitata allo scatto se tutti i posti in ingresso alla transizione hanno una marcatura maggiore o uguale al peso dei rispettivi archi in ingresso,se una transizione è abilitata allo scatto, l’eseuzione dello scatto toglierà dai posti in ingresso un numero di marche pari al peso dell’arco in ingresso ed aggiungerà ad ogni posto in uscita tante marche quanto è il peso dell’arco in uscita.
Sebbene le transizioni siano abilitate non è detto che debbano scattare per forza:possono esserci questioni di conflitto fra le transizioni (lo scatto di una inibisce l'altra) oppure semplicemente legate al non determinismo. Lo scatto quando avviene è instantaneo nelle PN in cui non vi è il concetto di tempo.
Tutti gli oggetti musicali, a qualsiasi livello di astrazione, sono temporizzati. Possiamo vedere il tempo come un oggetto indipendente con cui ogni altro oggetto deve relazionarsi. Gli oggetti musicali agiscono nel tempo in modo concorrente, comunicando e sincronizzandosi in particolari istanti sull’asse dei tempi.
Quando passiamo alla descrizione formale del linguaggio musicale, il modello adottato deve necessariamente assicurare due condizioni:
- la consistenza temporale, ossia l’esistenza di un unico asse temporale;
- la risoluzione temporale, ossia la distanza minima tra due punti distinti dell’asse temporale.
L'estensione delle PN considerata abilita la transizione in uscita non appena termina l’esecuzione del frammento musicale.
Descrivere in dettaglio i comandi che consentono l'attuazione della nozione di nota in MIDI

Fra i I Channel Voice Message,che controllano in generale le voci dello strumento (cioé che cosa deve suonare lo strumento) ritroviamo:
Il messaggio NOTE ON (Channel Voice Message) : questo messaggio viene inviato da una tastiera, batteria elettronica etc. quando una nota viene attivata (tasto per una tastiera, pad per una batteria elettronica etc.). Il messaggio MIDI di NOTE ON è composto da uno Status Byte e due Data Byte.
Il messaggio NOTE OFF (Channel Voice Message): questo messaggio viene inviato quando una nota viene disattivata e, come il messaggio di NOTE ON è composto da uno Status Byte e due Data Byte. Quando un sintetizzatore MIDI riceve questo messaggio, "spegne" la nota precedentemente aperta con un messaggio di NOTE ON. Il parametro velocity, può servire a gestire la fase di release del suono. Un messaggio di NOTE ON con velocity 0 è da considerarsi come un corrispondente NOTE OFF.
I Channel Mode Message,che controllano come lo strumento deve gestire i Channel Voice Message (cioé il comportamento dello strumento al momento della ricezione di un Voice Message). Questi messaggi appartengono alla famiglia dei Control Change e occupano gli ID da 122 a 127.
Il 123 corrisponde a All Notes Off che serve a spegnere tutti in Note On attivi sul canale MIDI specificato nello Status Byte.
Ogni messaggio da 123 a 127 ha come conseguenza un All Note Off.
Illustrare la nozione di "spine" nel formato MX (XML musicale IEEE)

Lo spine è un sottolivello del layer logic e contiene la funzione di mappatura spazio-temporale. E' il cuore di MX ed è un elemento sempre necessario.
Lo Spine è collegato a tutto,tranne il General poiché non ha senso sincronizzare delle stringhe alfanumeriche a dei simboli nella partitura,mentre per tutto il resto ha senso. Lo Spine è una struttura dati costituita da una sequenza di eventi (, ciascuno dei quali presenta un riferimento nel dominio dello spazio e del tempo),vi elenchiamo tutti i simboli che per qualche motivo hanno interesse nella partitura e gli diamo un nome. Quando un evento ricorre lo richiamiamo attraverso il suo identificativo univoco. E' una struttura che rappresenta la relazione spazio-temporale implicita nella musica. Grazie all’uso dello spine, i differenti formati di file possono essere messi in relazione per ottenere una descrizione completa dell’informazione musicale. Il suo obiettivo è costruire una struttura astratta cui fanno riferimento tutti gli strati che descrivono le proprietà del materiale originario,si rende dunque necessario un punto di riferimento unico per tutte le istanze appartenenti a layer diversi o allo stesso layer.
Nello spine è necessario identificare ed etichettare tutti gli eventi "significativi" in partitura,ossia come qualsiasi segno di cui si voglia tener traccia nell’MX.
Definire le nozioni di "chunk" e di "tag" nel formato NIFF

Il formato NIFF è un file coerente con la struttura Resource Interchange File Format (RIFF) di Microsoft. In questo tipo di struttura gli elementi relativi ai dati contenuti sono raggruppati in contenitori detti "chunks" che vengono, secondo le relazioni, raggruppati in contenitori detti "lists".
Un file di tipo RIFF e ognuno dei suoi tipi di dati (chunks e lists) possono variare in lunghezza. Nel NIFF, un ulteriore tipo di dati , definito come parte integrale del formato è il "tag", usato per associare informazioni ad un chunk.
L’elemento di base di un file RIFF è denominato chunk. Un chunk è composto da 4 caratteri ASCII che codificano il tipo di chunk, seguiti da un campo che descrive la sua lunghezza e dai dati del chunk. Una list è un tipo particolare di chunk che contiene susseguenti chunks, o subchunks. I 4 caratteri che la codificano sono "LIST". Una form è uno speciale tipo di chunk che compare all’inizio di ogni file RIFF e contiene tutti gli altri chunks e le altre liste presenti nel file. Il 4 caratteri ASCII che codificano il form sono sempre "RIFF", o nel caso del formato Motorola "RIFX", usato nel formato NIFF per convenzione. Il tipo di form, nel file RIFF di tipo NIFF è "NIFF".
Ogni Chunk in un file di tipo NIFF è formato da una parte di lunghezza fissa e una parte di lunghezza variabile. La parte a lunghezza fissa, per ogni tipo di chunk, contiene le relative informazioni così come nel file NIFF sono state codificate. La parte a lunghezza variabile è composta da una serie di tags opzionali i quali possono essere usati occasionalmente o solo da particolari programmi.
Un tag è un insieme di informazioni a lunghezza variabile composto da 1 byte di codifica che ne identifica il tipo, seguito da 1 byte che esprime la lunghezza del tag stesso e dai dati in esso contenuti.
Definire la dimensione dei dati audio di un file nei seguenti casi:
- 1 minuto di audio CD-DA (Compact Disc Digital Audio) stereo
- 1 minuto di audio MP3 Single Channel, bitrate 192k
- 1 minuto di audio PCM quadrafonico (4 canali), parole di quantizzazione di 24 bit, frequenza di campionamento 72KHz

- 44100 Hz * 16 bit * 2 canali * 60 secondi = 10,09 MB circa (84,672 Mbit)
- 192 kbps * 60 = 11,52 Mbit circa (pensiamo che i canali non servano)
- 72000 Hz * 24 bit * 4 canali * 60 secondi = 49,44 MB circa (414,72 Mbit)