[Tecnologia e Futuro] O sistema de som dos nossos smartphones

Xiaomi Piston 4

Esta semana decidimos não respeitar os velhos hábitos, que gostaríamos de dois artigos nesta coluna dedicados respectivamente a aspectos actuais e perspectivas futuras da mesma componente, e dividimos o espaço à nossa disposição entre duas tecnologias muito diferentes.

Se no domingo nós nos afastamos do coração de nossos smartphones para descrever as constelações GPS e GLONASS que fazem o posicionamento por satélite, portanto, hoje permaneceremos na superfície do planeta para analisar um sistema que, àquela distância de nossa atmosfera, teria bem poco sentido: o compartimento de áudio dos nossos smartphones.

fones de ouvido meizu EP80

Neste artigo, em particular, seguiremos a jornada de um sinal de som através do microfone dos nossos dispositivos até os deles memóriae, em seguida, rastreie o caminho inverso até nossos ouvidos. Será uma viagem longa mas fascinante que, se percorrida na íntegra, esclarecerá muitos detalhes de uma tecnologia já madura mas fundamental.

O caminho para o digital

O som, seja produzido pela habilidade de um músico virtuoso ou pela atividade temível de uma broca de dentista, nada mais é do que um conjunto de ondas vibracionais que eles se propagam na direção em que um veículo (estamos interessados ​​no ar, mas também pode ser um sólido ou um líquido) vem comprimido. As ondas deste tipo, em particular, são consideradas longitudinal.

Independentemente da origem das vibrações, portanto, o microfone de nossos dispositivos (que já descrevemos em um artigo anterior) vai perceber um variação de pressão ao longo da direção de propagação das ondas, que será convertida em sinal elétrico. A informação recolhida deste modo a partir do microfone é no entanto análogo e, consequentemente, incompreensível pelos SoCs dos nossos smartphones que raciocinam de forma digital.

soar
http://www.ultrasuoni.it/img/foto/onde.jpg

Para que o sinal possa ser usado, ele deve ser processado por um ADC (Conversor analógico para digital) que o traduz em strings de código binário. Antes de descrever os princípios por trás deste componente, no entanto, é imperativo apresentar alguns conceitos teóricos que estão na base da operação de todo o sistema.

Devemos mencionar, por exemplo, o Teorema de Fourier que nos assegura que é possível quebrar qualquer um função periódica, no entanto complicado, em um soma (possivelmente infinito) das ondas sinusoidal. Isso significa, na prática, que em vez de considerar um som genérico (que pode ser tanto a música mais doce quanto o ruído mais irritante, independentemente do timbre) podemos nos limitar, por linearidade, ao simples caso sinusoidal sem que o discurso perca sua generalidade.

Fourier
http://3.bp.blogspot.com/-S0GX8S4w1TE/TyrK8-tnGpI/AAAAAAAAKFY/kOM6ADRkOeI/s1600/sFFT4.png

Para uma onda deste tipo, em particular, os conceitos de freqüência (o número de vezes que a onda se repete em um segundo é medido em Coração) e de amplitude, isto é, o deslocamento máximo das moléculas de ar da posição de equilíbrio (ou a voltagem de um pico para o outro da onda no caso de um sinal elétrico). Também é interessante notar como um ouvido humano em boas condições só é sensível a ondas de frequência entre 20 Hz e 20000 Hz, e que, portanto, todas as ondas fora desta banda podem ser negligenciar sem uma perda significativa de qualidade.

Esta característica dos nossos ouvidos é fundamental para a digitalização do som, pois permite a intervenção do Teorema de amostragem de Nyquist-Shannon. Este importante resultado teórico, de fato, garante que é possível amostrar um sinal analógico largura de banda limitada sem perda de informação, desde que o frequência de amostragem é maior que o de Nyquist (igual a duas vezes a frequência máxima do sinal).

amostragem
http://www.tnt-audio.com/gif/convertus21.gif

Disse em palavras mais simples que este teorema nos assegura que tomando mais de um 40000 "fotos" do sinal, é possível reconstruir exatamente na faixa de frequência em que o ouvido humano é sensível. A primeira etapa que um ADC deve dar, portanto, é remover os componentes da onda sonora (que se tornou um sinal elétrico graças ao microfone) de frequência muito alta que, embora não perceptível aos humanos, criaria erros se amostrados.

Se eles também estivessem presentes no sinal frequências superiores a metade do amostragemna verdade, um teria a aparência de aliasing: durante a fase de reconstrução, o DAC ele não conseguia distinguir os dados gerados pela amostragem dessas ondas com aquelas devidas a freqüências mais baixas e, portanto, se reproduziriam um som muito diferente do original. Uma alta frequência de amostragem, portanto, é menos sensível à bondade dos filtros de entrada e, teoricamente, permite gravar sons além da faixa audível.

aliasing
http://www.tnt-audio.com/gif/convertus20.gif

A jusante dos poderosos filtros passa-baixa que limitam a banda do sinal, portanto, este último deve ser amostrado, ou seja, "fotografado" por meio de um amostra e segura (que na versão mais simples é composto por um capacitor, uma chave e um transistor) que o bloqueia pelo tempo necessário a quantize. O processo de quantização consiste em comparar a amostra de sinal com uma escada (numeração binária) de níveis, e como resposta retorna o número da etapa que melhor abordagem do sinal.

ADC
http://image.slidesharecdn.com/adcmcu-150115041854-conversion-gate02/95/analog-to-digital-converter-3-638.jpg?cb=1421295547

Desta forma, portanto, a onda sonora é codificada em PCM (Modulação de código de pulso, na realidade, é apenas uma das modulações possíveis) que, sendo Digital, é finalmente completamente compreensível pelo resto dos circuitos SoC.

Finalmente, notamos que a frequência de amostragem mais usada hoje ainda é que um KHz 44.1, que foi estabelecido após a difusão de CDs, e que o número de níveis da escala (que não é necessariamente linear) é medido em bits. Um sistema com n bit, em particular, terá 2 ^ n níveise, em seguida, um ADC a Pouco 24 terá etapas 16777216 disponíveis com um erro de quantização reduzido a apenas 0.06 partes por milhão igual a um intervalo dinâmico de 144 db .

Compressão: com e sem perdas

Neste ponto poderíamos entrar no mundo dos ADCs com maior precisão, talvez ilustrando um dos modelos mais usados ​​na área de áudio (como o das sucessivas aproximações). Uma análise desse tipo, entretanto, daria muito espaço e, provavelmente, não seria interessante para muitos leitores. Portanto, decidimos fazer melhor uso deste artigo, dedicando algum espaço para processo de compressão o que, muitas vezes, é a causa de resultados ruins ou não condizentes com o esperado.

A ideia de armazenar áudio diretamente no formato PCM, por outro lado, definitivamente não é a melhor do ponto de vista do consumo de memória. Se uma faixa estéreo clássica de um CD leva aproximadamente 10 MB para cada minutona verdade, há compressões sem perda de informação (em inglês lossless) Isso reduza a necessidade de memória até 60%.

flac
https://upload.wikimedia.org/wikipedia/commons/thumb/e/e0/Flac_logo_vector.svg/2000px-Flac_logo_vector.svg.png

Esses sistemas são não perceptuais e contam com o uso de algoritmos para remover o redundância de dados, ou seja, elimine duplicatas desnecessárias de informações. Podemos supor, por exemplo, que em nosso arquivo de áudio haja um som que se repete ciclicamente sempre igual: em vez de regravá-lo todas as vezes, o codec o gravará uma vez e indicará como se repete.

Na realidade, a eliminação das redundâncias ocorre de uma maneira um pouco mais complexa, baseada no uso de previsões lineares e resíduo. O codec, de fato, analisa um primeiro bloco de tempo e, aplicando um algoritmo, obtém parâmetros que permitem aproximar o próximo bloco de tempo a partir do primeiro. A diferença entre o previsão de software e o sinal real, então, é codificado separadamente, de modo que um possível decodificador pode recompor o segundo bloco sem perda de informação. Repetir o processo várias vezes, finalmente, codificará todo o arquivo de áudio.

previsão linear
https://www.ntt-review.jp/archive_html/200712/images/sp2-Fig-5.gif

O mundo dos sistemas não perceptuais, no entanto, também inclui algoritmos de tipo lossy, isto é, que comprimem a informação perdendo uma parte. Isto pode ser conseguido, por exemplo, usando um escala de quantização não linear que é mais sensível aos sons poco intensos do que os mais intensos. Assim é possível reduzir o número de etapas, isto é, o número de bits usados ​​para cada amostra, sem perdas excessivas na qualidade do sinal (este sistema é amplamente utilizado para telecomunicações, que utilizam uma escala logarítmica).

Outra técnica muito usada, então, é a PCM adaptativo diferencial, que consiste em codificar a diferença de amplitude entre uma amostra e a seguinte. Essa quantidade, de fato, na maioria dos casos permanece muito pequena e, conseqüentemente, requer um menos bits. Caso existam mudanças abruptas no som, em vez disso, o codec adapta a etapa de quantização para evitar grandes perdas de qualidade.

adpcm
https://ackspace.nl/w/images/c/cb/ADPCM.GIF

Já que a compressão ou a qualidade obtida com esses métodos muitas vezes não são suficientes, finalmente, é chegada a hora de mergulhar no grande mar da sistemas perceptivos. Estas técnicas, como o nome indica, são baseadas no fato de que nossos ouvidosem certas condições, eles parecem não ser sensíveis para alguns componentes do som que pode, portanto, ser eliminado.

A ciência que estuda este fenômeno é em particular a psicoacústica que, simplificando muito, nos diz que a contribuição de um componente de som depende de si mesmo intensidadedalla sua freqüência e pela presença de componentes vizinhos capazes de mascará-lo.

lossy
http://www.oocities.org/tuttowindows98/img/perceptive.gif

Um codec com perdas do tipo perceptivo, portanto, deve analisar em frequência o sinal de partida, isto é, deve transformá-lo naquela soma de sinusóides que mencionamos quando falamos do teorema de Fourier. Neste ponto, o algoritmo estimará a importância dos componentes individuais e, com base nos resultados, eliminar os menos importantes. Finalmente, as frequências residuais serão comprimidas e, para serem reutilizadas, terão que ser convertidas usando a transformação inversa.

Neste ponto você terá entendido que não apenas o áudio final será muito diferente do original, mas acima de tudo vai depender do codec usado. Independentemente da taxa de bits, em particular, um algoritmo de baixa qualidade dará resultados ruins, enquanto um de boa qualidade será capaz de obter excelentes compressões sem (ou quase) que nossos ouvidos possam perceber a diferença em relação ao original.

O caminho de volta

Agora que vimos como você pode gravar horas de áudio em muito pouco espaço, podemos finalmente ver o que acontece quando pressionamos o botão de reprodução do nosso aplicativo de música favorito. Vamos deixar de fora o processo, claro descompressão, em que os algoritmos refazem o caminho feito pelos codecs para reproduzir um som fiel ao original (embora muitas vezes diferente), e vamos nos concentrar no DAC (Digital to Ananlog Converter) e os "truques" usados ​​por ele para melhorar a reprodução.

Antes de prosseguir, porém, é correto esclarecer que os processos de compressão e descompressão eles geralmente ocorrem dentro do DSP (Digital Signal Processor) integrado no SoC. Além disso, esse componente geralmente lida com a aplicação filtros de software especial que deveria, na intenção do construtor, melhore a simpatia do som (por exemplo, aumentando o baixo ou criando efeitos 3D).

hub de áudio

A jusante deste componente, no entanto, encontramos o nosso CAD que é responsável por recriar sinal analógico que, através de um alto falante, torna-se som. Muitas vezes nossos smartphones têm um único chip que integra DAC e ADC (mesmo que este último componente já esteja cada vez mais presente no microfone), e geralmente esses "hubs de áudio" também têm um microcontrolador usado para efeitos sonoros de vários tipos.

O DAC, no entanto, deve resolver alguns dos problemas herdados do sistema usado pelo ADC para gravar o sinal. aliasing, por exemplo, ele também se manifestará na conversão em analógico e, na presença de uma frequência de amostragem poco superior ao de Nyquist, será difícil de eliminar, a menos que você use filtros de passagem baixa poderosos (e caros). Uma vez que o aliasing será quase sempre presenteportanto, o sistema do oversampling para evitar que seus efeitos sejam refletidos no sinal final.

oversampling
http://www.tnt-audio.com/gif/convertus27.gif

Oversampling consiste emaumentar artificialmente a frequência de amostragem, introduzindo i amostras nulas, que será então removido a jusante do DAC. Desta forma, o pseudônimo está sempre presente, mas si mover para frequências mais altas que são facilmente eliminados por filtros poco caros e, em qualquer caso, não são audíveis ao ouvido humano e são reproduzidos muito atenuados por alto-falantes comuns.

Para evitar problemas devido a quantização sinal (que se torna muito importante na presença de ondas poco grande) um processo de dithering será então necessário. Por exemplo, imagine uma onda senoidal de largura pequena que é gravado apenas pelo bit mais sensível.

pontilhado
http://www.tnt-audio.com/gif/convertus23.gif

Neste caso, a onda original estará nos olhos do DAC a 'onda quadrada periódico que, se reproduzido, seria sentido pelo ouvido humano como um distorção. Se você introduzir um ruído fundo de alta frequência, disse estremecimento, pode no entanto mascarar a presença desta onda poco agradável aos nossos ouvidos. o pontilhado, Portanto, Ele “troca” uma distorção por um ruído.

O DAC, no entanto, é responsável por recriar a forma de onda original usando o contrário a escala usada pelo ADC. Uma vez recebido o número da etapa (ele recebe mais de 40000 por segundo), portanto, este circuito emite no nível correspondente. O sinal final, portanto, será uguale (dentro dos erros de quantização e amostragem) ao inicial e pode ser endereçado a um amplificador.

altpoparlante
http://www.dizionariovideogiochi.it/lib/exe/fetch.php?media=gennaio08:altoparlante.gif

A jusante do amplificador, que lida com o aumento da amplitude do sinal (ganho) e sua poderhá finalmente alto falante que, graças ao seu bobina móvel, transforma o sinal elétrico em um vibração que se espalha no ar e finalmente chega aos nossos ouvidos.

Esperamos que tenha gostado desta pequena viagem ao mundo do som e que, mesmo que não tenhamos tocado em muitos dos temas mais caros ao público audiófilo, tenha uma ideia de como funciona o setor de áudio dos nossos smartphones. Por fim, gostaríamos de informá-lo que na próxima vez em nossa coluna "Tecnologia e o futuro", falaremos sobre sistemas de telecomunicação que são a base da parte "telefone" (e não apenas) dos nossos dispositivos!