MPEG-7
18 - Audio
O MPEG-7 Audio fornece estruturas (baseadas na MDS) para descrever conteúdos de áudio. Utiliza-se as
estruturas Descritoras de baixo nível, para descrever características do sinal de áudio como características
espectrais, paramétricas e temporais do sinal. Pode-se também utilizar ferramentas para descrição em alto
nível que são específicas a um conjunto de aplicações. Dentre as ferramentas de alto nível temos o esquema de
descrição de assinatura de áudio (audio signature Description Scheme), esquema de descrição de timbre de
instrumentos musicais (musical instrument timbre Description Schemes), ferramentas para descrição de melodias
para a uma "query-by-humming", ferramentas de descrição de reconhecimento de sons e indexação, e ferramentas
de descrição de conteúdos da fala.
Audio Framework
O Audio Framework contém ferramentas de baixo nível que servem como base ao desenvolvimento de aplicações de
áudio em mais alto nível. O MPEG-7 estabelece uma plataforma de interoperabilidade entre todas as aplicações
que podem ser basedas no framework, porque ele fornece um meio comum para as estruturas de descrição e a
semântica básica para as características de áudio comummente consideradas.
Estruturas
Existem essencialmente duas maneiras de descrever características de baixo nível do áudio. Uma pode amostrar
valores a intervalos constantes ou uma outra pode usar segmentos para demarcar regiôes de similaridade e
disimilaridades no som. Ambas possibilidades estão incorporadas em dois descritores de baixo nível (um para
valores escalares, tais como potência ou freqüência fundamental, e outro para vetores, tais como o espectro)
que criam uma interface consistente. Qualquer descritor que seja derivado desses dois tipos pode ser
instanciado, descrevendo um segmento com um único valor de sumário ou uma série de valores amostrados, como a
aplicação requer.
Os valores amostrados podem ser manipulados posteriormente por uma outra interface: elas podem formar uma
série escalável. As séries escaláveis permitem uma progressiva sub-amostragem dos dados contidos em uma
série, a medida que a aplicação, a largura de banda ou o armazenamento requer.
Características:
Os descritores de baixo nível são muito importantes, sendo existem que dezesete descritores temporais e
espectrais, que podem ser divididos nos seguintes grupos:
- Basico
- Basico Espectral
- Parametros do Sinal
- Timbre Temporal
- Timbre Espectral
- Base Espectral
Uma outra ferramenta útil e simples é o descritor de silêncio.
Cada uma dessas classes pode ser vista na figura abaixo e são brevemente descritas abaixo.

Basico
Os dois descritores de áudio básicos são valores escalares amostrados temporáriamente para uso genérico (são aplicáveis a todos os tipos de sinais).
- O descritor de forma de onda (AudioWaveform Descriptor) descreve o envelope das formas de onda (minimo e máximo).
- O descritor de potência sonora (AudioPower Descriptor) descreve a potência instantanea temporalmente suavizada, útil para fazer um rápido sumário de um sinal.
Basico Espectral
Os quatro descritores básicos compartilham uma base comum, todos derivados de uma análise tempo-freqüência do
sinal de áudio. Todos eles são informados pelo primeiro descritor, o AudioSpectrumEnvelop, que é um espectro
logarítmico em freqüência, espaçado por dois divisores ou múltiplo de uma oitava.
- O AudioSpectrumEnvelope é um vetor que descreve o pequeno termo do espectro de potência de um sinal de áudio.
Ele pode ser usado para mostrar um espectrograma, para sintetizar uma auralização cru, ou para busca e comparação.
- O descritor AudioSpectrumCentroid descreve o centro de gravidade do espectro de potência de freqüências (logarítmica).
Esse descritor é uma descrição economica da forma do espectro de potência, indicando quer o
conteúdo espectral de um sinal é dominado por altas ou baixas freqüências.
- O descritor AudioSpectrumSpread complementa o descritor anterior descrevendo o segundo momento do espectro de potências de freqüências,
indicando quer o espectro de potência é centrado perto da centroide espectral ou espalhada ao longo do
espectro. Isso pode ajudar a distinguir entre sons puros e sons parecidos com ruidos.
- O descritor AudioSpectrumFlatness descreve o achatamento do espectro de um sinal de áudio para cada uma das
bandas de freqencias. Quando esse vetor indica um alto desvio do espectro chato, isso pode indicar a presença
de componetes tonais.
Parametros do Sinal
Dois descritores de parametros do sinal são aplicados a sinais periódicos ou quasi-periódicos.
- O descritor de freqüência fundamental (AudioFundamentalFrequency) descreve a freqüência fundamental de um sinal de áudio.
A representação desse descritor permite uma medida confiável, considerando-se que de que vários métodos de extração, chamados de
"pitch-tracking", não são precisos, e também considerando que devem existir segmentos de um sinal para o qual nenhuma freqüência
fundamental pode ser extraída (ex. ruído).
- O descritor de harmonicidade (AudioHarmonicity) representa a harmonicidade de um sinal, permitindo a distinção entre sons com espectro harmônico (ex. tons musicais ou fala vocalizada(vogais)), sons com espectro inarmônico (ex. sons metélicos ou sons de sinos) e sons com espectro não harmônico (ex. ruído, fava não vocalizada (fricativos), ou uma mistura densa de instrumentos).
Timbre Temporal
Os dois descritores de timbre temporal descrevem caracteríticas temporais de segmentos de sons, e são especialmente úteis para descrever o timbre musical. Como um único escalar é utilizado para representar a evolução de um som ou um segmento de áudio no tempo, esses descritores não são aplicáveis a séries escalares.
- O descritor de ataque (LogAttackTime) caracteriza o "ataque" de um som, o tempo que leva para o sinal para subir a partir do silêncio até o seu máximo de amplitude. Essa característica representa a diferença entre um som brusco e um som suave.
- O descritor temporal da centróide (TemporalCentroid) caracteriza o envelope do sinal, representando aonde no tempo a energia do sinal está focada. O descritor pode, por exemplo, distinguir entre o decaimento de uma nota de piano e a nota suspença de um órgão, quando o comprimento e os ataques das duas notas são iguais.
Timbre Espectral
Os cinco descritores espectrais de timbre são características em um espaço de freqüência linear, especialmente aplicável a percepção de timbre musical.
- O descritor de centróide espectral (SpectralCentroid Descriptor) é uma média ponderada da freqüência dos blocos (quadros) no espectro de potencia linear. É bastante similar ao descritor de centroide do espectro do áudio, mas é especializado para ser utilizado na distinção de timbres de instrumentos musicais. Ele tem uma alta correlação com a "agudez" percebida de um som.
Os quatro restantes descritores operam nas componentes harmonicas regularmente espaçadas do sinal. Por esta razão, os descritores são computados em um espaço de freqüência linear.
- A centróide espectral harmonica é uma média ponderada dos picos harmonicos do espectro. Ela tem um significado parecido com o do outro descritor de centroide, mas é aplicada apenas para partes harmonicas de um tom musical.
- O descritor de derivação espectral harmonica (HarmonicSpectralDeviation) indica o desvio espectral dos componentes de amplitude logarítmica de um envelope espectral global.
- O espalhamento espectral harmonico (HarmonicSpectralSpread) descreve o desvio padrão da amplitude ponderada dos picos de harmonicos do espectro, normalizado pela centroide espectral harmonica instantanea.
- O descritor de variação espectral harmonica (HarmonicSpectralVariation Descriptor) é uma correlação normalizada entre a amplitude dos picos harmonicos entre duas fatias de tempo subsequentes de um sinal.
Bases Espectrais
Os dois descritores de bases espectrais representam preojeções de menores dimensões de um espaço espectral de alta dimensão para
dar compaccidade e reconhecimento. Estes descritores são utilizados principalmente na classificação de sons e indexação de ferramentas descritivas, mas podem ser utilizados com outros tipos de aplicações.
- O descritor de base espectral de áudio (AudioSpectrumBasis Descriptor) é uma serie de funções bases (potencialmente variantes no tempo e/ou estatiscamente independentes) que são derivadas de um decomposição em valor singular de um espectro de potência normalizado.
- O descritor de projeção espectral do áudio (AudioSpectrumProjection) é utilizado juntamente com o descritor de base espectral do áudio, e representa as características de baixa dimensão de um espectro após sua projeção em um base reduzida.
Em conjunto, esses descritores podem ser utilizados para visualizar e para representar compactamente os subespaços independentes
de um espectrograma. Usualmente, esses subspaços independentes (ou grupos) se correlacionam fortemente com diferentes fontes de som. Assim é possível obter maior saliencia e estrutura de um espectrograma utilizando menos espaços.


a n t e r i o r | p r ó x i m a | i n d e x