Compression des données audio

La compression de données audio (souvent appelée indistinctement compression audio) est une réduction de données ( algorithme « lossy » ) ou une compression de données ( algorithme « lossless »).

La compression de données audio décrit des types spécialisés de compression de données afin de réduire efficacement la taille des données audio numériques . Comme avec d'autres types spécialisés de compression de données (en particulier la compression vidéo et d' image ), les propriétés spécifiques des signaux correspondants sont utilisées de diverses manières afin d'obtenir un effet de réduction.

Ce type de compression ne doit pas être confondu avec la méthode de rétrécissement dynamique (également appelée compression dynamique ), qui est normalement utilisée pour augmenter les passages plus calmes ou plus forts dans un signal audio et n'enregistre aucune donnée (voir aussi Compresseur ) .

Compression de données audio sans perte

La compression de données audio sans perte ou la compression audio sans perte plus courte est une compression sans perte de données audio, donc la génération de données compressées, qui permettent une reconstruction bitidentische du signal de sortie.

Les codecs audio sans perte diffèrent des méthodes de compression de données génériques en ce qu'ils sont spécialement adaptés à la structure de données typique des données audio et donc mieux la compressent que les méthodes génériques telles que les algorithmes basés sur Lempel - Ziv Deflate / ZIP et RAR . Le taux de compression qui peut être atteint avec les méthodes actuelles est généralement compris entre 25 et 70 pour cent pour le contenu typique des CD audio (musique, 16 bits / 44100 Hz).

utilisation

Les méthodes sont utilisées dans les studios d'enregistrement, sur des supports sonores plus récents tels que SACD et DVD-Audio, et de plus en plus également dans des archives musicales privées pour les auditeurs soucieux de la qualité qui souhaitent éviter les pertes de génération , par exemple . Par ailleurs, de nombreuses méthodes de compression de données issues du secteur audio présentent également un intérêt pour d'autres signaux tels que des données biologiques, des courbes médicales ou des données sismiques.

Problème

La majorité des enregistrements sonores sont des sons enregistrés du monde réel ; ces données sont difficiles à compresser. Semblable à la façon dont les photos ne peuvent pas être compressées ainsi que les images générées par ordinateur, bien que les séquences sonores générées par ordinateur puissent également contenir des formes d'onde très compliquées qui sont difficiles à réduire avec de nombreux algorithmes de compression.

De plus, les valeurs des échantillons audio changent très rapidement et il y a rarement des séquences des mêmes octets, c'est pourquoi les algorithmes généraux de compression de données ne fonctionnent pas bien.

Trouver des représentations plus économiques

La nature de la représentation PCM des ondes sonores est généralement difficile à simplifier sans une conversion inévitablement avec perte en séquences de fréquences comme celles qui ont lieu dans l'oreille humaine.

Dans le cas des données audio, vous pouvez

  • Similitudes entre les chaînes (stéréo) et
  • Dépendances entre échantillons successifs (par dé- corrélation ) et après
  • Entropie des échantillons du signal résiduel

être exploité.

La technologie

Couplage des canaux

En couplant les canaux, les dépendances entre les canaux peuvent être exploitées. En décrivant un canal via la différence avec un canal central existant ou nouveau, la description répétée de contenus communs peut être évitée.

Les signaux de différence peuvent être soit stockés sans perte, quantifiés et codés en conséquence avec perte, soit, par exemple, également stockés de manière abstraite pour former des descriptions paramétriques .

prévision

Pour exploiter les dépendances entre des valeurs d'échantillons successives, une décorrélation est effectuée en tentant de prédire l'évolution de la courbe sonore. Il en résulte qu'un signal résiduel/différence peut être calculé qui, si la prédiction est bonne, est d'autant plus faible (c'est-à-dire a peu de chiffres significatifs) et, de plus , peut être compressé à l' aide d'un procédé de codage entropique . À cette fin, dans la plupart des cas, les valeurs d'échantillon sont extrapolées à partir d'autres à l'aide de méthodes de prédiction sophistiquées et adaptatives (adaptatives).

Codage entropique

Le codage entropique du signal résiduel décorrélé utilise différentes probabilités d'occurrence et similitudes pour ses valeurs d'échantillon. Les codes de riz , par exemple, sont souvent utilisés pour cela.

Une méthode est symétrique si, pour le décodage, le signal passe par les mêmes étapes en sens inverse que pour le codage et que l'effort de calcul pour le codage dépend de l'effort de calcul requis pour le décodage.

Fonctionnalités procédurales

Dans le cas des codecs sans perte, par définition, les différences de qualité du signal audio doivent être exclues ; les différences de procédure résident dans les caractéristiques suivantes :

  • ratio de compression
  • lecture directe des données compressées
  • Saut à n'importe quelle position dans un flux audio
  • Besoins en ressources pour la compression et la décompression
  • Support logiciel et matériel
  • Flexibilité dans le traitement des métadonnées
  • Type de licence
  • Disponibilité multiplateforme
  • Prise en charge des signaux multicanaux
  • Prise en charge de différentes résolutions - temporellement ( fréquence d'échantillonnage ) ou la profondeur sonore ( profondeur d'échantillonnage )
  • éventuellement des modes supplémentaires avec pertes voire hybrides (lossy + fichier de correction)
  • Prise en charge de la diffusion en continu
  • Mécanismes de tolérance aux pannes / de correction
  • Sommes de contrôle intégrées pour vérifier rapidement l'exhaustivité d'un fichier
  • Options de codage symétrique et asymétrique (indépendance / dépendance de la vitesse de décodage sur la vitesse de codage)
  • Prend en charge la création de fichiers auto-extractibles
  • Compatibilité avec la norme de gain de relecture
  • Support de feuille de repère intégré
  • stockage possible des données d'en-tête du format d'origine

Formats audio sans perte

Les formats audio sans perte sont :

Compression de données audio avec perte

En tant que compression de données audio avec perte , moins précis, moins la compression audio avec perte ou dans un contexte approprié compression avec perte ou en anglais « lossy » (lossy), il se réfère à des méthodes qui rejettent effectuer la réduction des données et habituellement ciblé environ économisent les composantes du signal moins pertinentes pauvres précision ou irrémédiablement.

Avec des méthodes simples telles que μ-droit et A-law , seuls les points d'échantillonnage individuels du flux de données PCM sont quantifiés en utilisant une courbe caractéristique logarithmique en fonction du niveau. Des méthodes telles que l' ADPCM utilisent déjà les corrélations de points d'échantillonnage successifs. Les méthodes modernes sont principalement basées sur des transformations fréquentielles en lien avec des modèles psychoacoustiques qui simulent les propriétés de l'oreille humaine (interne) et réduisent la précision d'affichage des composants de signaux masqués en fonction de ses insuffisances. Pour les processus spécialisés, des modèles sont également utilisés qui simulent le générateur de sons et permettent ainsi la synthèse sonore au niveau du récepteur ou dans le décodeur, avec lesquels une grande partie du signal peut alors être décrite avec des paramètres de contrôle du synthétiseur.

La compression avec perte

Psychoacoustique

La plupart des méthodes modernes n'essayent pas de réduire l'erreur mathématique, mais d'améliorer la perception humaine subjective des séquences de tons. Étant donné que l'oreille humaine ne peut pas analyser toutes les informations d'une tonalité entrante, il est possible de modifier un fichier sonore de manière significative sans altérer la perception subjective de l'auditeur. Par exemple, un codec peut stocker certaines des composantes sonores dans des plages de fréquences très hautes et très basses qui se situent à la limite de la plage audible avec moins de précision ou, dans des cas exceptionnels, même les rejeter complètement. Les sons faibles peuvent également être reproduits avec moins de précision car ils sont recouverts ("masqués") par les sons forts des fréquences voisines. Un autre type de superposition est qu'un son doux ne peut pas être reconnu s'il vient juste avant ou après un son fort (masquage temporel). Un tel modèle de la connexion oreille-cerveau, qui est responsable de ces effets, est souvent appelé modèle psychoacoustique (aussi : « Modèle psychoacoustique », « Psycho-modèle » ou « Psy-modèle »). Les propriétés de l' oreille humaine telles que le groupement de fréquences , les limites de la portée auditive, les effets de masquage et le traitement du signal de l' oreille interne sont utilisées ici .

La plupart des algorithmes de compression avec perte qui fonctionnent selon un modèle psychoacoustique sont basés sur des transformations simples, telles que la transformation en cosinus discrète modifiée (MDCT), qui convertissent la forme d'onde enregistrée en ses séquences de fréquences et trouvent ainsi des représentations approximatives du matériau source qui peuvent être efficacement quantifiés, puisque la représentation de la perception la plus proche de l'homme. Certains algorithmes modernes utilisent des ondelettes , mais il n'est pas encore certain que de tels algorithmes fonctionnent mieux que ceux basés sur MDCT.

qualité

Les méthodes de compression avec perte ne permettent que la reconstruction d'un signal approximativement similaire en raison de leur principe. La transparence peut être obtenue avec de nombreux processus, c'est-à-dire qu'un degré de similitude peut être atteint pour la perception auditive (de l'être humain) dans laquelle aucune différence avec l'original ne peut être perçue. Les artefacts de compression introduits dans le signal sont audibles en dessous du seuil de transparence. À l'extrémité supérieure de l'échelle se trouve la transparence, avec laquelle aucune différence par rapport à l'original n'est perceptible. Elle peut être déterminée par des tests auditifs à l'aveugle. Habituellement, une valeur seuil du montant du débit binaire est grossièrement indiquée, à partir de laquelle la transparence devient possible, avec un risque plus ou moins élevé de situations exceptionnelles qui ne peuvent pas (encore) être codées de manière transparente. Ce risque diminue généralement si le débit binaire est encore augmenté et dépend, entre autres, de l'architecture de la méthode respective. Ici, des méthodes plus modernes peuvent souvent proposer de meilleurs mécanismes pour maîtriser les zones à problèmes. En dessous du seuil de transparence du processus de compression, les artefacts de compression peuvent encore être masqués dans une certaine mesure par les perturbations que les appareils inférieurs introduisent dans la lecture. Dans le cas d'artefacts de compression perceptibles, une comparaison objective de différentes méthodes est beaucoup plus difficile, car elle dépend souvent en grande partie des préférences subjectives de l'auditeur. Les critères ici peuvent être, par exemple, le caractère naturel de l'image sonore - par exemple, si les artefacts ressemblent à des perturbations naturelles telles que le bruit. À l'extrémité inférieure de l'échelle de qualité, les codecs vocaux considèrent généralement le seuil d'intelligibilité en dessous duquel le contenu vocal ne peut plus être reproduit de manière compréhensible.

Artefacts de compression

Dans le cas des méthodes de compression basées sur des transformations de fréquence, les artefacts typiques incluent un spectre sonore sensiblement plus clair et plus pauvre, ce qui conduit, par exemple, à des artefacts de gazouillis (« artefact d'oiseau ») ou à un son sourd caractéristique de bulles ou de gargouillis et d'échos dominants (anglais "artefacts pré-écho") pour les événements sonores aigus et à haute énergie ( transitoires ).

Perte de génération

Étant donné que les parties avec perte d'un processus de compression génèrent généralement des pertes (supplémentaires) à chaque exécution, il existe une perte de génération si, par exemple, un fichier est compressé pendant le transcodage , puis décompressé puis compressé à nouveau. En pratique, cela se produit principalement lorsqu'un CD audio est gravé à partir de fichiers audio avec perte (les CD audio ne sont pas compressés) et que le matériel est ensuite lu et compressé. Cela rend les fichiers avec perte inadaptés aux applications dans les domaines du traitement du son professionnel ( " la réduction des données est une destruction audio " ). Cependant, de tels fichiers sont très populaires auprès des utilisateurs finaux, car un mégaoctet, selon la complexité du matériel sonore, suffit pour environ une minute de musique de qualité acceptable, ce qui correspond à un taux de compression d'environ 1:11.

Les exceptions ici sont, par exemple, les pré-filtres avec perte pour une combinaison avec des processus sans perte tels que lossyWAV, qui traitent les données PCM afin d'obtenir par la suite une plus grande compression avec un (certain) processus de compression sans perte. Les données générées par le préfiltre peuvent bien entendu être compressées et décompressées aussi souvent que souhaité en utilisant la méthode de compression sans perte, au moins tant qu'elle n'est plus modifiée, sans subir de pertes supplémentaires.

Évaluation de la qualité

Les évaluations suivantes sont basées sur divers tests auditifs d'hydrogenaudio.org. Ce forum représente une plate-forme qui est visitée par les utilisateurs intéressés et expérimentés ainsi que par les développeurs de diverses méthodes de compression audio telles que MP3 ( encodeur LAME ), Vorbis ou Nero-AAC. Le nombre élevé de personnes participant au test se traduit par des déclarations de qualité statistiquement sécurisées.

Du développement du MP3 (vers 1987) à l'utilisation initiale du codec (vers 1997-2000) jusqu'au format audio le plus utilisé au monde (depuis environ 2003), la qualité de sortie n'a cessé de s'améliorer. D'autres formats tels que Vorbis, WMA ou AAC ont également été développés pour représenter une alternative au MP3 ou pour le remplacer à terme. Ces formats ont également été continuellement développés.

Un fichier MP3 avec un débit de ~ 128 kbit/s semblait très modeste en 1997. La qualité promise de type CD n'était pas encore atteinte à ce moment-là. En 2005, comme le confirment les tests auditifs de l'époque, l'encodeur LAME pour le même format à ~ 128 kbit/s offrait déjà une qualité transparente pour la nette majorité des auditeurs, c'est-à-dire non distinguable de l'enregistrement original.

Selon un test auditif d'août 2007, une qualité comparable peut être obtenue avec le format AAC à 96 kbit/s.

Les tests d'écoute des années 00 avec des débits de 48 et 64 kbit / s montrent qu'à ces faibles débits, une qualité peut être obtenue qui convient à une utilisation dans des appareils portables ou pour la radio web.

Avec un encodeur de bonne qualité et le bon format, une qualité pourrait déjà être atteinte à 96 à 128 kbit/s que la nette majorité des utilisateurs ne peut distinguer du CD.

Formats audio avec perte

Une analyse spectrale de la chanson non compressée The Power of Thy Sword montre une bande passante complète jusqu'à environ 21 kHz, tandis que les spectres inférieurs des fichiers respectifs ont une bande passante nettement inférieure, mais cela ne signifie pas que la qualité audio s'est détériorée de manière significative. (Spectres de fréquences MiniDisc provenant d'un enregistrement analogique)

Dans les exemples, pour autant que l'on sache, les débits binaires sont également donnés auxquels un fichier compressé ne peut plus être distingué de l'original par la plupart des gens, c'est-à - dire des sons transparents - avec une écoute concentrée avec de bons accessoires et un codec sophistiqué de la compression respective schème; selon le type de musique. Il faut cependant noter que la transparence n'est pas ressentie par tout le monde au même débit. La qualité des convertisseurs N/A, des amplificateurs et des boîtiers joue ici un rôle important. Alors que la compression avec perte est généralement très clairement audible sur les équipements de studio, même pour les profanes, elle ne peut pas être différenciée de l'original sur les appareils de lecture inférieurs, même pour les professionnels. L'information est donc une valeur de référence pour l'auditeur moyen avec un équipement moyen. Le débit binaire des CD est de 1411,2 kbit/s (kilobits par seconde).

Pour des comparaisons de divers codecs audio, consultez les liens Web .

  • AC-3 , également appelé Dolby Digital ou similaire
  • AAC (MPEG-2, MPEG-4 ) : 96-320 kbit/s
  • ATRAC ( MiniDisc ) : 292 kbit/s
  • ATRAC3 (MiniDisc en mode MDLP) : 66–132 kbit/s
  • ATRAC3plus (pour Hi-MD et autres appareils audio portables de Sony) : 48–352 kbit/s
  • DTS
  • MP2 : MPEG-1 Layer 2 Audio Codec ( MPEG-1 , MPEG-2 ): 280-400 kbit / s
  • MP3 : MPEG-1 Layer 3 Audio Codec (MPEG-1, MPEG-2, LAME ) : 180–250 kbit/s
  • mp3PRO
  • Musepack : 160–200 kbit / s (open source)
  • Ogg Vorbis : 160–220 kbit/s (open source)
  • opus
  • WMA
  • LPEC
  • TwinVQ

Voir également

Littérature

  • Roland Enders : Le manuel d'enregistrement à domicile . 3. Édition. Carstensen, Munich 2003, ISBN 3-910098-25-8 .
  • Thomas Görne : Ingénierie du son . 1ère édition. Carl Hanser, Leipzig 2006, ISBN 3-446-40198-9 .
  • R. Beckmann : Manuel de la technologie PA, pratique des composants de base . 2e édition. Elektor, Aix-la-Chapelle 1990, ISBN 3-921608-66-X .
  • A. Lerch : Réduction du débit binaire . In : Stefan Weinzierl (Ed.) : Manuel de technologie audio . 1ère édition. Springer, Berlin 2008, ISBN 978-3-540-34300-4 , p. 849-884 .

liens web

Commons : compression de données audio  - collection d'images, de vidéos et de fichiers audio

Preuve individuelle

  1. http://wiki.hydrogenaudio.org/?title=lossyWAV
  2. Résultats du test d'écoute publique multiformat @ 128 kbps (décembre 2005) ( Memento du 5 juin 2008 dans Internet Archive )
  3. a b Résultats du test public d'écoute multiformat @ 48 kbps (novembre 2006) ( Memento du 5 juin 2008 dans Internet Archive ), sur www.listening-tests.info, novembre 2006 (anglais).
  4. Résultats du test d'écoute publique multiformat @ 64 kbps (juillet 2007) ( Memento du 5 juin 2008 dans Internet Archive )