Sei sulla pagina 1di 11

Griffonage-Dot-Com

Explorações de Patrick Feaster na mídia histórica

Casa Sobre

Como "reproduzir" uma imagem de uma


onda sonora
Patrick Feaster / 27 de novembro de 2014

Para muitas pessoas, a reprodução de sons gravados ocorre em uma caixa preta
conceitual: o som entra e o som sai, e é armazenado em coisas chamadas de “registros”
no meio, mas o processo em si é muito misterioso. Por causa disso, a afirmação de que
podemos reproduzir imagens de ondas sonoras (que parecem ser coisas muito diferentes
de “registros”) é frequentemente recebida com incredulidade. A técnica que descreverei
aqui “desafia a crença”, segundo o Gizmodo .

Mas realmente não há nada de mágico ou mesmo particularmente surpreendente sobre o


fato de podermos transformar imagens de ondas de som em som. Afinal, se você olhar de
perto o ritmo de um disco de 78 rpm ou um mono LP, você verá que não é nada mais do
que uma forma de onda incisa enrolada em uma espiral longa. Como a forma de onda é
gravada em profundidade, ela pode guiar fisicamente uma caneta para frente e para trás
através de suas ondulações à medida que o disco gira, o que nos dá um meio conveniente
de transformá-las em uma onda sonora audível. Mas a informação está toda lá no caminho
bidimensional da própria forma de onda. Exceto questões de resolução, não há mais
informaçõesem um registro de 78 rpm ou em um mono LP do que em uma imagem da
mesma forma de onda impressa em um pedaço de papel. Se quisermos ouvir uma forma
de onda inscrita bidimensionalmente em um pedaço de papel, o desafio que enfrentamos é
a prática de transferir essa informação para uma forma jogável. Claro, não é incisão
suficientemente profunda para guiar uma caneta em uma plataforma giratória. Mas
podemos digitalizar a imagem da forma de onda, converter os dados da imagem digital em
um arquivo de som digital e, em seguida, reproduzir o arquivo de som. É o que vou
descrever como fazer.

Um nome possível para essa prática seria paleocimofonia (“som de ondas antigas”). É
uma das duas abordagens básicas que tenho usado para edificar as inscrições sonoras
históricas como som - isto é, “tocá-las”, atualizá-las para a percepção sensorial a partir de
Privacidade um
e Cookies:
estado Este siteou
latente usapotencial.
cookies. Ao continuar
A outra a usar este site, você
é paleospectrofonia concorda
, sobre comescrevi
a qual seu uso.
aqui . A
Para saber mais, incluindo como controlar cookies, veja aqui: Política de Cookies
distinção entre os dois métodos é que a paleoespectrofonia interpreta os dados como um
gráfico de frequência como uma função do tempo, enquanto a paleocimetofonia (ou
Feche e aceite
qualquer outra coisa que escolhemos chamar) interpreta dados como um gráfico de
amplitude como uma função do tempo . Estes são os dois métodos que usei para produzir
o áudio paraPictures of Sound , publicado em 2012 pela Dust-to-Digital.

[ Atualização de 20 de novembro de 2016 : desde a publicação deste post, escrevi um


código próprio que realiza a mesma coisa que o método descrito abaixo, mas melhor e
mais simples - confira .]

1. Isole o traço como uma linha branca em um fundo preto.

Se o traço começar como um traço escuro em um fundo claro, inverta-o de forma que seja
um rastro de luz em um fundo escuro. Também é geralmente útil aumentar o contraste -
geralmente várias vezes na configuração máxima do Photoshop - e depois preencher o
fundo com preto usando a ferramenta paintbucket, sempre tomando cuidado para não
perder nenhum detalhe da própria forma de onda.

2. Ajuste a imagem da forma de onda de modo que seu centro ou "ponto zero"
coincida com uma linha reta que vai da esquerda para a direita.

Se a forma de onda é enrolada em espiral, como no caso de um disco de gramofone, então


precisamos "des-espiralar". No Photoshop, use Filter> Distort> Polar Coordinates , com
o botão de opção "Polar to Rectangular" selecionado. Esta é uma transformação intensiva
de memória, e você precisará de muita memória RAM para realizá-la em imagens maiores;
Eu gastei em um Asus G74S especificamente para esse propósito. Também não está
disponível para imagens com mais de 30.000 pixels em qualquer direção. Tenha o cuidado
de centralizar a espiral o mais exatamente possível, tendo em mente que a revolução mais
externa da espiral não é equidistante do centro (porque seu ponto médio se move
gradualmente para fora). Uma espiral centrado imperfeitamente produz linhas "onduladas"
após a transformação. Eu nunca pareço ser capaz de obter exatamente a centralizaçãoEu
mesmo, mas eu tento chegar bem perto. Errar equivale a tocar um disco de gramofone em
um toca-discos um pouco fora do centro.
Frequentemente, uma forma de onda se arrasta gradualmente até a página, conforme
ilustrado de forma exagerada abaixo. Queremos isolá-lo na faixa retangular de imagem
mais estreita possível. No Photoshop, podemos usar Edit> Transform> Skew para
reorientá-lo; Certifique-se de arrastar a alça no ponto médio do lado da caixa de seleção,
em vez de um dos cantos. Você pode fazer isso com um único traço ou com um grande
número de traços paralelos de uma só vez (como o exemplo acima mostrado após a
espiral).

Se o eixo de amplitude for ele mesmo inclinado em um ângulo em vez de orientado para
cima e para baixo em relação ao eixo do tempo, também podemos usar a função "skew"
para ajustar seu azimute como mostrado aqui (o topo é "antes" ”):

3. Se você estiver trabalhando com vários segmentos sequenciais de um rastreio,


junte o máximo possível deles em um único arquivo de imagem muito longo, se
possível.

Começando com a versão de espiral do disco de gramofone mostrada acima, por exemplo,
precisaríamos cortar as linhas individuais ou revoluções uma por uma e associá-las de
ponta a ponta.

O principal desafio aqui é alinhar as emendas corretamente, tanto na vertical quanto na


horizontal. Se você estiver lidando com um traço com uma junção irregular ou
comprometida entre rotações ou revoluções, é útil tornar uma camada transparente para
que você possa deslizar as imagens uma por cima da outra para encontrar a sobreposição
que melhor preserva a ciclicidade da imagem. forma de onda. Aqui está um exemplo de tal
junção de um dos fonoautogramas de Édouard-Léon Scott de Martinville (# 47, “Et
Incarnatus Est”), com traço vocal abaixo e traçado de sintonia simultânea acima:
As imagens no Photoshop são limitadas a 300.000 pixels em qualquer direção, portanto, as
gravações mais longas precisarão ser divididas em vários segmentos de 300.000 pixels.
Nesse caso, certifique-se de deixar alguma sobreposição entre os segmentos para que,
quando chegar a hora de unir os arquivos WAV resultantes, você possa escolher um ponto
de referência conspícuo e conveniente que ambos compartilham em comum para servir
como ponto de transição.

4. Se houver alguma quebra no traço, repare-as manualmente.

Esse processo pode ser mais ou menos demorado e subjetivo, dependendo de quanto do
traço está faltando. Aqui está um exemplo relativamente direto de um registro fotográfico
da frase "Como você faz?", Capturado em 1878 por Eli Whitney Blake, Jr., mostrando
quebras no traço desenhados à mão com uma ferramenta de lápis:

Agora imagine o que estaria envolvido em fazer a mesma coisa para o traço vocal no fono -
ograma de “Et Incarnatus Est” mostrado acima, e você terá uma noção de como essa
etapa pode ser intensiva em mão-de-obra. Se houver algum ruído visual remanescente no
fundo neste ponto, como manchas ou pontos, isso também precisará ser limpo. No geral, o
processo se assemelha ao retoque de fotografias históricas.

5. Crie duas cópias da imagem da forma de onda, uma com a área acima do traço
preenchida em branco (usando a ferramenta paintbucket) e a outra com a área
abaixo do traço preenchida em branco.
O objetivo aqui é converter valores de amplitude - ou seja, até onde “subir” ou “descer” o
traço é em cada ponto sucessivo no tempo - em diferentes quantidades de brancura ou
brilho. Esta estratégia refere-se apenas às representações de ondas onduladas de “linhas
onduladas”; Se você tiver a sorte de trabalhar com uma imagem oscilográfica que já varia
de brilho, como uma trilha sonora de filme óptico, você pode pular as etapas 4, 5 e 7. Aqui
estão alguns outros exemplos de casos em que essa observação aplica-se: de cima para
baixo, chamas manométricas fotografadas por Edward L. Nichols e Ernest Merritt (1898),
um cilindro fonográfico modulado verticalmente lido por IRENE e uma placa ilustrativa de
Tentamen novae theoriae musicae de Leonhard Euler (1739):

Algumas das outras etapas de processamento ainda podem ser necessárias nesses casos,
como correção de azimute (no exemplo de cima), separação em linhas (no exemplo do
meio) e inversão para preto no branco (no exemplo de baixo). Por analogia com a distinção
tradicional entre registros modulados vertical e lateralmente, refiro-me a essa abordagem
alternativa como a edução vertical , em oposição à edução lateral que ocorre com linhas
onduladas.

6. Execute as imagens através de software projetado para converter imagens de


trilha sonora óptica em arquivos WAV.

O software que tenho usado para esse fim é o ImageToSound , de Andrew Jaremko , um
freeware projetado para converter imagens em som como se fossem trilhas sonoras de
filmes óticos (onde a modulação do sinal de áudio está ligada à quantidade de luz que
passa por um som). faixa translúcida que varia em largura ou opacidade). Está ficando
cada vez mais difícil encontrar on-line, mas ainda pode ser baixado aqui a partir de
novembro de 2014. Este programa converte cada coluna de pixels sucessivos em um
arquivo de imagem em uma amostra de áudio, cujo valor é calculado como a soma da
luminância de todos pixels na coluna - no cenário que estou descrevendo, isso é igual à
quantidade de brancoem cada coluna de pixels sucessivos, o que corresponde, por sua
vez, ao deslocamento vertical do traço original. Na verdade, estamos medindo as
distâncias das bordas da imagem até as bordas do traço, assim:

O ImageToSound está limitado ao processamento de BMPs de 24 bits , portanto, é


necessário converter arquivos de imagem nesse formato, caso ainda não estejam nele. O
programa também está restrito para a saída de um WAV de 8 bits, embora o usuário possa
escolher a taxa de amostragem (geralmente com 44,1 kHz). Algumas outras peculiaridades
sobre isso são dignas de nota:

Ele não será executado no Windows 7, exceto no modo de compatibilidade do


Windows 98, e nesse modo eu descobri que ele não pode manipular alguns dos
arquivos maiores que ele foi capaz de acomodar em versões anteriores do
Windows. Eu mantenho um computador desktop executando o Windows 98 para
lidar com esses casos.
Ele remove alguns DC offset, o que pode ser vantajoso do ponto de vista da arte
sonora experimental, mas que não é desejável para os meus propósitos porque
compromete a precisão da edução. Às vezes, atenuo o efeito executando as
imagens tanto para frente quanto para trás (isto é, invertendo horizontalmente) e
combinando os resultados (depois de reverter o arquivo para trás); isso funciona
muito bem. Mas, ao fazer isso, me deparo com outro problema: por algum motivo, os
arquivos WAV de saída não iniciam e param exatamente com o primeiro e último
pixels das imagens, então as versões “forward” e “backward” não se alinham.
exatamente. Minha estratégia para lidar com esse outro problema foi inserir uma
única coluna de pixels brancos na extremidade esquerda da imagem “avançada”
antes de lançá-la para criar a imagem “para trás”; isso cria um tick de amostra única
em ambos os arquivos WAV resultantes que eu posso usar como um ponto de
referência comum para alinhá-los com uma precisão perfeita. Na verdade, é
vantajoso inserir várias dessas colunas de pixel único, já que ocasionalmente
encontrei uma delas inexplicavelmente recortada de um dos WAVs de saída.
Às vezes, o ImageToSound retorna um arquivo WAV que não possui a resolução
usual: o tick de amostra única desaparece e os detalhes mais precisos
desaparecem. Não sei o que causa o problema, mas alterar a largura da imagem
para um número mais arredondado (expandindo o tamanho da tela) parece resolvê-
lo.

Sou grato pelo fato de o ImageToSound existir, mas gostaria de ver alguém projetar um
software que não tenha essas deficiências. A AEO-Light parece ter uma promessa como
uma ferramenta alternativa para realizar a mesma coisa de forma melhor e mais flexível,
mas ainda não consegui fazê-la funcionar.

Como a abordagem que descrevi não envolve seguir ou rastrear o rastreamento em si, ele
pode acomodar distorções que tecnicamente violam a lógica do gráfico de tempo-
amplitude, como “loopback”, em que o traço parece se mover para trás em relação ao eixo
do tempo. Não pode realmente corrigir tais distorções; isso exigiria algum tipo de
manipulação geométrica que ainda precisa ser realizada. Mas pode, pelo menos, educá-los
de uma maneira consistente , que também produz resultados precisos a partir de traços
não distorcidos.
7. Agora é só uma questão de realizar alguns processos básicos de edição de áudio.
Combine os dois arquivos WAV de saída em um arquivo estéreo, colocando a versão
top-filled no canal esquerdo e a versão bottom-filled no canal direito. Inverta o canal
esquerdo. Então some os dois canais para mono.

8. Ajuste a velocidade de reprodução.

Se você converteu a imagem em áudio a uma taxa de amostragem de 44.100 kHz, então
cada segundo de áudio corresponde inicialmente a uma largura de 44.100 pixels na
imagem de entrada. Se você souber a velocidade de gravação original, poderá ajustar a
velocidade de reprodução de acordo. Digamos que sua imagem fonte original tenha sido
uma espiral gravada a uma velocidade angular constante de 50 rotações por minuto e que,
após a espiral, cada revolução ocupa 30.000 pixels. 30.000 pixels por revolução × 50
rotações por minuto = 1.500.000 pixels por minuto; dividido por 60, que sai para 25.000
pixels por segundo. Pegue a duração do arquivo de saída em 44.100 pixels por segundo,
multiplique por 1.764 (44.100 / 25.000) para calcular a duração desejada e, em seguida,
corrija o arquivo novamente para essa duração de destino. Por outro lado, se você não
conhece a velocidade de gravação original,

Supondo que a gravação foi feita a uma velocidade constante. Se você está lidando com
uma gravação que foi feita em uma velocidade irregular , então você pode querer tentar
corrigir a irregularidade. Para gravações feitas com um traço de referência do diapasão,
assim:

—Combine os WAVs do rastreio “principal” e o rastreio de ajuste de bicos em um arquivo


estéreo. Em seguida, selecione cada grupo de cinco ciclos no traçado do diapasão e
defina-o manualmente para uma duração constante:

Se você souber a frequência do diapasão em Hertz, divida cinco por esse número para
obter a duração desejada para cada grupo de cinco ciclos. Alternativamente, se você não
conhece a freqüência, encontre a duração mais longa ocupada por cinco ciclos, defina tudo
nessa duração e ajuste a velocidade de ouvido uma vez que as flutuações tenham sido
fatoradas. Certifique-se sempre de selecionar o mesmo ponto no ciclo do diapasão para os
pontos inicial e final. Você pode optar por trabalhar com um número de ciclos diferente de
cinco, é claro, mas descobri que grupos de cinco ciclos tendem a funcionar muito bem.

Se uma gravação foi feita em uma velocidade irregular sem um traço de referência, você
não pode corrigir as flutuações de velocidade objetivamente, mas ainda pode restaurar
algo próximo da velocidade original com base nas inferências sobre o material de origem
(por exemplo, uma escala jogado em uma corneta) ou padrões manuais de arranque (que
tendem a ter algum grau de regularidade para eles). Ainda não foi feito muito nesse
sentido, mas é um campo maduro para a exploração.

9. Aproveite os resultados! Aqui estão alguns exemplos de escolha.

Uma impressão em papel de uma gravação de gramofone experimental feita pelo


inventor Emile Berliner em 11 de novembro de 1889 , localizado por Stephan Puille em
um álbum de recortes da Biblioteca do Congresso. No trecho dado aqui, o berlinense conta
de um a vinte em inglês, ri cordialmente e canta “Reiters Morgengesang” - até onde sei,
essa é a primeira gravação conhecida de canto em alemão.

00:00 00:00
Um fonoaudograma de Au Clair de la Lune, cantado pelo inventor Édouard-Léon
Scott de Martinville em 9 de abril de 1860 , escaneado e audível pela iniciativa First
Sounds . Esta é a gravação mais antiga do mundo da voz humana com um tema
reconhecível (ou seja, se você conhece a música, você a reconhecerá da reprodução). Eu
apresentei três versões sucessivas para ilustrar os passos que foram dados no
processamento: (1) traço de traço vocal e traçado de sintonia em estéreo sem correção de
velocidade; (2) traço vocal e traçado de ajuste de garfo em estéreo com correção de
velocidade; (3) traço vocal em mono com correção de velocidade.

00:00 00:00

Eu criei o arquivo de som de "Au Clair de la Lune", fornecido aqui em 2011, usando a
técnica de processamento imagem-som descrita acima. No entanto, a versão originalmente
lançada ao público em 2008 havia sido convertida em áudio pelo software “caneta virtual”
criado no Lawrence Berkeley National Laboratory como parte do projeto IRENE , que se
concentra no uso de tecnologia de varredura óptica para extrair dados de canais
analógicos. mídia para reprodução. Para comparação, aqui está um gráfico que mostra um
trecho da edição de 2011 (superior), o traçado digitalizado original (meio) e a edição de
2008 (parte inferior):

A edição de 2011 segue o traço com mais precisão, mas isso se deve principalmente à
limpeza manual intensiva da imagem de origem. Na edição de 2008, você pode ver pontos
em que o ruído visual confundiu o algoritmo de Berkeley; detectar o padrão em tais casos
pode exigir a intervenção de um ser humano, algo como um CAPTCHA . Eu devo
mencionar que as técnicas de processamento de imagem para som que eu esbocei neste
blog também podem ser aplicadas com sucesso à saída óptica bruta do IRENE. Para
ilustrar o ponto, aqui está um breve clipe de áudio baseado em dados extraídos pelo
IRENE no NEDCC de um cilindro fonográfico do “Anvil Chorus”, convertido em som usando
meus métodos, em vez do próprio software PRISM da equipe IRENE:

00:00 00:00
Forma de onda da frase falada “Com meu olhinho, eu o vi morrer”, transferida por
Edward Wheeler Escritura de um disco comercial de gramofone para papel e
publicada em Pesquisas em Fonética Experimental: O Estudo de Curvas de Fala
(Washington DC: Carnegie Institution of Washington 1906). Este traço faz parte da arte da
capa de Pictures of Sound .

00:00 00:00

Duas formas de onda da frase falada “Como você faz?”, Como gravadas
fotograficamente por Eli Whitney Blake, Jr .: uma impressão original encontrada nos
documentos de Alexander Graham Bell na Biblioteca do Congresso. Uma versão editada
do rastro inferior foi publicada no American Journal of Science de julho de 1878 e
mencionada como já publicada no Boston Daily Advertiser de 9 de julho de 1878. Assim, a
gravação em si deve ter sido feita antes de 9 de julho de 1878 , para que ele tenha sido
escrito, revisado, aceito, gravado, impresso e distribuído até essa data. A grande questão é
se esse processo levou mais ou menos de dezessete dias. Afinal, se a gravação é anterior
a 22 de junho de 1878 - a data de uma gravação de papel de alumínio de St. Louis que foi
gravadaO filme tocou opticamente em 2012, revelando algumas rimas de berçário - o que o
tornaria o mais antigo exemplar de inglês falado reconhecidamente reconhecido, mas ainda
assim recuperado.

00:00 00:00

E finalmente, aqui está um fonoautograma do famoso Alexander Graham Bell dizendo


“ah” em 28 de janeiro de 1875!

00:00 00:00
Eu joguei isso apenas para mostrar que nem todas as formas de onda acabam produzindo
conteúdo de áudio atraente - meus colegas da First Sounds e eu nos referimos a
resultados como “thwips e peidos”. Eles podem não parecer muito, mas ainda são
conceitualmente legal e pode ser aproveitado para fins criativos, como com esta pequena
composição musical que eu joguei juntos em 2008 com base em um "thwip"
phonautographic de 1857:

00:00 00:00

Agora é sua vez. Vá encontrar uma imagem de uma forma de onda e veja o que você
pode fazer!

Anúncios

Anúncio fechado por


Não exibir mais este anúncio

Anúncio? Por quê?

Denunciar este anúncio

Anúncio fechado por


Não exibir mais este anúncio

Anúncio? Por quê?

Denunciar este anúncio

Compartilhar isso:

 O email  Tumblr  Impressão  Pinterest 1  Reddit  Twitter

 Facebook 84  Google

Like
One blogger likes this.