2eme partie : Vive Ethernet

La problématique des réseaux audio professionnels

réseaux audio professionnels Ethernet

Nous avons vu dans le précédent volet de cette série consacrée aux réseaux, les raisons qui amènent à les utiliser aujourd’hui à l’heure du numérique tant pour l’audio que la lumière et la vidéo.
Nous allons aborder dans les lignes qui suivent, les raisons qui ont présidé au choix d’Ethernet comme support aux différents type de réseau exploités en audio et évoquer les aspects « protocolaires ».

Lorsqu’on cherche des voies de transmission pour l’audio numérique, l’un des premiers critères qui viennent à l’esprit est le débit utilisable par l’application, c’est-à- dire le nombre de kbits/s purement audio, et, par conséquent, le nombre de voies audio que le réseau est capable de transporter dans les conditions de qualité de service (QoS) requises.

Le Tableau 1 donne une idée des débits audio les plus significatifs. Accessoirement, on pourra y ajouter les kbits/s disponibles pour les applications non-audio associées (télécommandes diverses, DMX/RDM, etc.). Normalement, l’utilisateur ne devrait pas avoir à s’occuper d’autres choses.

Tableau 1 : Débits binaires bruts (en kbits/s) correspondant à diverses configurations audio numériques PCM non compressées.

Tableau 1 : Débits binaires bruts (en kbits/s) correspondant à diverses configurations audio numériques PCM non compressées.

Or l’adaptation des interfaces informatiques à l’audio de qualité s’est historiquement révélée très laborieuse. Pourtant, leur débit annoncé est beaucoup plus important que ce qui semble strictement nécessaire (100/200/400 Mbits/s en FireWire d’origine, 800 à 3200 Mbits/s en version 2, 12 Mbits/s en USB1, 480 Mbits/s en USB2 « High Speed », 4 à 5 Gbits/s en USB3 « Superspeed », etc.). Certaines applications de réseau audio exigent des réseaux gigabit.
Pourquoi l’USB1 (12 Mbits/s) est capable de transporter dans des conditions convenables de l’audio numérique en temps réel, pourquoi Bluetooth est capable de la même chose, alors que l’Ethernet (10/100/1000 Mbits/s) éprouve des difficultés invraisemblables pour obtenir un résultat similaire ? D’où vient l’écart phénoménal entre le débit nominal du réseau et le débit propre à l’application, qui n’est que de quelques Mbits/s ?

Débit théorique et débit réel

réseaux audio professionnels Ethernet

Limitations dues à la couche physique : Le débit spécifié pour le réseau (ou revendiqué dans les documentations commerciales) est en fait une valeur théorique : en général il s’agit du débit qui circule sur le réseau dans le meilleur des cas, pour une liaison de point à point sans partage.
Dès qu’il y a plus de deux éléments sur le réseau (un “ hôte ” et un seul périphérique), ce débit doit être partagé entre toutes les communications qui peuvent s’établir.

Ainsi, l’hôte ou chaque périphérique peuvent recevoir, en pointe et pendant un court instant, le débit nominal promis par le réseau, mais le partage implique que, en moyenne, chacun ne voie qu’un débit moindre, et d’autant plus faible que le réseau est chargé en éléments et que ces éléments sont actifs.
Dans certains cas, le débit dépend également de la longueur de la liaison. Bien entendu, les chiffres revendiqués le sont pour des liaisons courtes, et cet aspect des choses est rarement explicité de manière claire. Ainsi, certains standards comme l’USB par exemple, sont inexploitables en audio professionnelle du fait de la limitation de la longueur des liens. Même la fibre optique, qui est souvent parée de toutes les vertus en termes de portée de liaison et de débit disponible, peut être frappée de ce défaut. Il est patent pour les fibres multimodes, dont la bande passante décroît avec la longueur, du fait du phénomène bien connu de dispersion.
Une autre limitation vient de la technologie de réalisation de l’interface physique. Si les couches de bas niveaux sont réalisées avec des processeurs matériels, elles peuvent supporter un débit important et prolongé. En revanche, si elles sont assurées par des logiciels assistés par une partie matérielle réduite à la portion congrue (c’est-à-dire la solution économiquement la plus favorable), il est peu probable que le débit de crête (celui du document commercial) soit assuré de manière soutenue. C’est toute la différence entre l’USB et l’IEEE1394.

Débit binaire et bande passante

Figure 7 : Un débit de n bits/s en code binaire pur NRZ correspond à une fréquence de signal de n/2 Hz

Figure 1 : Un débit de n bits/s en code binaire pur NRZ correspond à une fréquence de signal de n/2 Hz.

Comment faire la relation entre le débit binaire, notion purement informatique, et la bande passante, notion d’électronique analogique ? En d’autres termes, quelle est la fréquence la plus élevée qu’il faut raisonnablement transmettre dans un réseau pour assurer un débit donné ? (la fréquence la plus basse est le continu si le signal est codé “ naturellement ”, c’est-à-dire en NRZ, et nous avons vu que cette contrainte peut être levée si on fait appel à un codage de canal adéquat, tel que le code biphase ou le NRZI, par exemple).

Pour assurer le débit souhaité, remarquons que le cas le plus stressant pour le réseau est celui où le signal change tout le temps avec la fréquence maximale, soit la séquence 01010101… etc.
Ce signal aboutit, en termes de chronogramme, à un signal carré, mais en fait, il n’est pas nécessaire de transmettre des fronts raides. Des arches de sinusoïdes suffisent (ce qui correspond à un diagramme de l’œil parfaitement ouvert). L’observation du chronogramme (voir figure 1 ci-dessus) montrent que la séquence 010101 à N bits/s correspond à une sinusoïde de fréquence maximale N/2 Hz. C’est la bande passante qu’il faut assurer sur le réseau pour que la transmission soit correcte.


Enfin, signalons un autre aspect des choses : si la liaison comporte deux paires, elle peut fonctionner dans les deux sens en même temps (full duplex). Elle est forcément plus rapide qu’une liaison en alternat (half duplex), dont le débit n’est disponible, à un instant donné, que dans un seul sens, et dont chaque changement de sens implique un délai de “ retournement du bus ”. Ce délai introduit des temps morts pendant lesquels aucun débit n’est disponible.

réseaux audio professionnels Ethernet

Limitations dues à la couche liaison : Outre l’interface physique, la couche liaison intervient de manière prédominante sur le débit effectivement disponible sur un réseau. Cette couche définit en effet la manière dont l’information est mise en paquets, la structure de ces paquets et la manière dont chaque périphérique accède au réseau en évitant les conflits.
Ces dispositions, qu’on regroupe sous le terme de “ protocoles ” pèsent lourdement sur les performances. A titre d’exemple, on remarquera que l’USB comme FireWire définissent des protocoles différents pour les transmissions asynchrones et pour les transmissions isochrones, plus pénalisants pour les premières que pour les dernières

Cette notion de protocole implique la nécessité de charger le réseau avec certaines informations qui ne participent en rien au débit utile de l’application. Par exemple, tous les protocoles à base de trames nécessitent l’émission périodique d’en-têtes de trames. Celles-ci correspondent à un certain débit binaire, qu’il y a lieu de retrancher définitivement du débit théorique. (40 kbits/s pour l’USB “ High speed ”)

De même, les en-têtes de paquets, les différentes informations d’adressage, les codes détecteurs ou correcteurs d’erreurs (parité, CRC, etc.) ne participent pas au bilan de charge utile. Ainsi, USB a un protocole plus lourd que FireWire : le système de jetons consomme un débit important (15 octets par transaction). Un protocole dans lequel on fait figurer l’adresse de l’émetteur et l’adresse du récepteur est plus lourd que celui qui n’inclut que l’adresse du destinataire.
Signalons aussi que certains algorithmes de partage du réseau, comme nous le verrons plus loin, spécifient, pour éviter ou résoudre les conflits d’accès multiple, des temporisations de durées aléatoires. Bien entendu, il y a des cas où, durant ces laps de temps, aucune communication n’est présente sur le réseau. C’est autant de temps perdu, qui dégrade le débit moyen sur le réseau.

Enfin, les protocoles impliquant un échange d’accusés de réception ne sont pas utilisables dans les applications en temps réel, notamment audiovisuelles, car ils sont par essence non déterministes. C’est ce qui fait toute la différence entre les transactions asynchrones et les transactions isochrones. Les types de réseau qui partagent leur temps entre les deux types de transactions n’offrent évidemment pas la totalité de leur capacité de transmission pour les applications audio, qui n’appartiennent qu’à un seul des deux types.

réseaux audio professionnels Ethernet

Les protocoles encapsulés : Tout cela se complique singulièrement lorsqu’on veut utiliser des standards largement répandus. En effet, pour se conformer au standard à usage général “ machin ”, on doit respecter un certain protocole, pesant de son propre poids sur le bilan global.

S’il s’agit de transporter de l’audio, il faut se conformer à un standard audio (par exemple AES-3). Ce standard a, lui aussi un poids. Si on veut mettre de l’AES-3 dans le standard “ machin ”, on doit cumuler le poids de l’AES-3 et le poids du protocole “ machin ”. Et qui plus est, si, dans le protocole AES-3, l’information élémentaire n’a pas exactement la taille acceptée dans la charge utile du protocole « machin », on doit compléter avec des bits de bourrage, non porteurs d’information, pour « leurrer » le protocole « machin » et lui faire croire qu’il s’agit bien du type de données qu’il est initialement destiné à transporter.

Cela prend parfois un aspect caricatural, voire ubuesque. Il y a parfois tant de protocoles encapsulés les uns dans les autres que le poids de tout cela pèse plus que celui des bits applicatifs, qui finissent presque par devenir accessoires. C’est comme cela qu’on en arrive à exiger des Gbits/s pour transmettre deux canaux audio.
D’autant que, pour ces deux canaux audio, on est souvent amené à utiliser, dans un mode dégradé, des systèmes prévus pour transporter des dizaines de canaux audio, dont tout le poids pénalise l’application jusqu’à en hypothéquer la viabilité. Avec ces protocoles, on marche souvent sur la tête, mais nous ne pouvons pas aller contre le sens de l’Histoire et regretter la bougie parce que pour faire marcher une ampoule il faut parfois des centrales nucléaires…

Ethernet, le vrai réseau à tout faire

réseaux audio professionnels Ethernet

Aujourd’hui, même les enceintes peuvent se mettre en réseau.

S’il existe actuellement un réseau véritablement universel, ce n’est pas l’USB, malgré ses prétentions et le U de son acronyme, c’est plutôt l’Ethernet. Sous ce terme on désigne un protocole (disons plutôt une famille de protocoles), initialement prévu pour un environnement de type radio (d’où la racine “ éther ”, du nom du milieu hypothétique dans lequel se propagent les ondes radio), capable d’emprunter une multitude de chemins (supports physiques) différents : cuivre, fibre optique, ondes radio et d’avoir, selon les supports physiques, une grande variété de portées (définie tant en termes de distance qu’en termes d’audience).

Ainsi, ce type de réseau, selon ses mises en œuvre, recouvre-t-il les réseaux personnels (PAN), surtout au moyen d’interfaces de types radio (WPAN), les réseaux dits locaux (réseaux de communautés, d’entreprises, LAN) et les réseaux de grande envergure, voire mondiaux (WAN, Internet).
Le type de réseau qui nous importe le plus dans nos applications est le réseau local (LAN), les plus petits LAN ressortissant plutôt des PAN. En ce qui concerne les WAN, l’expérience montre que les problèmes de latence et de non-déterminisme rendent les utilisations en temps réel plutôt délicates.

Un intérêt de l’Ethernet est d’être physiquement présent sur la quasi-totalité des ordinateurs, le plus souvent sous forme intégrée à la carte mère (au moins en ce qui concerne l’interface câble), et d’être intégrable à de nombreux appareils, autonomes ou non, à relativement peu de frais. Il est également pris en charge par la plupart des systèmes d’exploitation. Il faut toutefois dépenser une certaine énergie dans le développement logiciel pour obtenir quelque chose de convivial et surtout, au fonctionnement fiable, sûr et stable.

réseaux audio professionnels Ethernet

Couche physique : Ethernet, sous ses formes les plus utilisées actuellement, est couvert par la norme IEEE 802.3 (devenue ISO/IEC 8802-3 dans sa version internationale). Son origine remonte à 1973 au sein de la firme Xerox.
Diverses couches physiques sont admises pour véhiculer le standard Ethernet. Elles sont repérées par une appellation dont le nombre représente le débit théorique (10,100, 1 000, 10 000 Mbits/s) et le dernier symbole le type de support physique.

10Base2 fonctionne sur du câble coaxial 50 Ω. On peut le considérer comme obsolète. 10Base-T utilise deux paires torsadées dans un câble dit CAT-3 ou CAT-5 (ce dernier, incluant 4 paires torsadées, existe en deux variantes : non blindé d’impédance caractéristique 100 Ω, selon EN 50441-1 et blindé par feuillard d’aluminium selon EN 50441-2).

Fast Ethernet est une dénomination générale pour les standards à 100 Mbits/s. 100Base-T est le terme générique pour l’Ethernet 100 Mbits/s sur câble à paires torsadées. 100Base-TX utilise deux paires torsadées dans un câble de catégorie 5 ou 5e. La longueur totale maximale recommandée entre équipements est de 100 m.
Gigabit Ethernet s’applique aux liaisons à 1000 Mbits/s. Sur câble, cela concerne le standard 1000Base-T qui exploite les 4 paires d’un câble de catégorie 5 ou au-delà avec une portée de 100 m. Gigabit Ethernet utilise les quatre paires en full duplex, un code à 5 moments (obtenu par un algorithme dénommé 4D/PAM5), compatible avec le code à 3 moments utilisé par 100Base-T, permet à chaque paire de transmettre 2 bits par période d’horloge, ce qui fait que le câble transmet un octet à chaque cycle. 1000Base-T est compatible avec 100Base-TX et 10Base-T.

Il existe plusieurs interfaces normalisées pour l’Ethernet à 1 Gbits/s sur fibre optique, à choisir selon la distance, le type de fibre (monomode ou multimode) et la longueur d’onde (850 ou 1300 nm). Il existe aussi un mode 10 Gbits/s sur différents supports (câble, fibres…), dont le standard a été adopté en 2006, et dont l’usage n’est pas encore stabilisé. 10GBase-T utilise du câble Cat 6a, 6e ou 7 en full duplex et une trame compatible avec 100Base-T et 1000Base-T..

réseaux audio professionnels Ethernet

Protocole Ethernet : Ethernet repose sur le principe de membres pairs (peers), c’est à dire qu’il n’y a ni maître ni esclave. Les pairs sont identifiés par une adresse unique appelée adresse MAC (Media Access Control). Celle-ci est stockée “ en dur ” dans le silicium des systèmes.
Dans le monde entier, il ne peut y avoir deux éléments portant la même adresse MAC. Les adresses MAC sont sur 6 octets, soit 48 bits. Une adresse MAC est généralement représentée en hexadécimal, les octets étant séparés par “ : ”. Il existe quelques adresses réservées, comme l’adresse FF:FF:FF:FF:FF:FF, dite “ adresse de broadcast. ”.

Dans la version d’origine du standard, les messages émis sont diffusés, c’est-à-dire que tous les pairs connectés les reçoivent (Ethernet partagé). Pour accéder au réseau sans qu’il y ait de collisions, on utilise un algorithme dit CSMA/CD (Carrier Sense Multiple Access with Collision Detection).

Au niveau de chaque pair désirant émettre, les principes sont les suivants :

  • Si le canal est libre, il émet directement
  • Si le canal est occupé, il attend que le canal se libère
  • Lorsque le canal s’est libéré, il attend une durée aléatoire avant d’émettre. (ainsi, sur la base d’une espèce de « tirage au sort », le premier protagoniste de la collision qui a dépassé la durée aléatoire prend possession du canal.).
  • Si le nombre maximal d’essais de transmission est dépassé, il signale l’échec au niveau supérieur et sort du mode de transmission.
  • Si une collision est détectée en cours d’émission, il continue à émettre pendant une durée suffisante pour que tous les pairs aient eux aussi détecté la transmission, puis cesse la transmission et se met dans l’état d’attente (canal occupé).
Figure 2 : Algorithme de résolution des collisions CSMA/CD. t1 correspond au temps minimum de transmission d’un paquet (nécessaire pour que tous les éléments connectés sur le réseau aient détecté la collision), t2 est une durée aléatoire. Le choix très vraisemblable de durées différentes pour les différents éléments qui veulent émettre sur le réseau réduit la probabilité de collisions

Figure 2 : Algorithme de résolution des collisions CSMA/CD. t1 correspond au temps minimum de transmission d’un paquet (nécessaire pour que tous les éléments connectés sur le réseau aient détecté la collision), t2 est une durée aléatoire. Le choix très vraisemblable de durées différentes pour les différents éléments qui veulent émettre sur le réseau réduit la probabilité de collisions.

Cet algorithme est présenté schématiquement sous forme d’organigramme ci-dessous en figure 2 ci-contre.

Tous les messages circulant sur le réseau, chaque élément doit sélectionner ceux qui le concernent et ignorer les autres. Pendant une communication, tous les pairs doivent s’abstenir d’émettre.
De ce fait, une communication à fort débit peut saturer le réseau et empêcher les autres de communiquer. Au-delà d’une charge de 50 % (en termes de trafic et non de nombre d’éléments connectés), la probabilité de collision devient importante.


réseaux audio professionnels Ethernet

De ce fait, on est obligé de faire appel à des commutateurs (switches), qui optimisent la disponibilité de chaque branche du réseau. Dans ce cas, la nature du réseau change profondément.
Dans la version d’origine, la topologie du réseau physique est en étoile, chaque nœud de l’étoile est réalisé à partir d’un concentrateur (hub).

Chaque message émis est reçu par tous les autres pairs. Ainsi, la topologie “ logique ” s’apparente plutôt à une chaîne. Un seul pair peut émettre à la fois, chaque branche du réseau ne peut fonctionner qu’en half duplex (alternat).

FIgure 3 : Dans la version d’origine, Ethernet utilise des hubs et, comme dans une liaison radio, chaque message émis par un pair (en rouge) est reçu par tous les autres pairs, y compris le destinataire (en rouge). Une seule communication monopolise l’ensemble du réseau. En remplaçant les hubs par des switches, on n’utilise plus qu’une infime partie du réseau pour la liaison, qui devient full duplex. Plusieurs liaisons peuvent se produire simultanément (rouge, bleu, vert), et, si les switches incluent une file d’attente, peuvent emprunter des parties communes du réseau

Figure 3 : Dans la version d’origine, Ethernet utilise des hubs et, comme dans une liaison radio, chaque message émis par un pair (en rouge) est reçu par tous les autres pairs, y compris le destinataire (en rouge). Une seule communication monopolise l’ensemble du réseau. En remplaçant les hubs par des switches, on n’utilise plus qu’une infime partie du réseau pour la liaison, qui devient full duplex. Plusieurs liaisons peuvent se produire simultanément (rouge, bleu, vert), et, si les switches incluent une file d’attente, peuvent emprunter des parties communes du réseau.

La topologie est celle d’une véritable étoile et la communication bidirectionnelle entre plusieurs pairs peut s’établir simultanément, au débit maximal (voir figure 3 ci-contre).

La tendance moderne est à remplacer les hubs (concentrateurs) par des switches (commutateurs). Avec des commutateurs à la place des concentrateurs, le protocole CSMA/CD est désactivé et remplacé par une gestion intelligente des ports effectuée par chaque commutateur sur la base de la connaissance des adresses des machines connectées à chaque port et sur un mécanisme de file d’attente.

On notera toutefois que le protocole CSMA/CD reste indispensable dans les cas où il est impossible de commuter les messages.
C’est, par essence le cas des réseaux radio (Wi-Fi) ou sur le secteur (CPL, Courant Porteur en Ligne).

Le protocole Ethernet répartit les données en trames. Il existe plusieurs types de trames, le plus significatif est l’Ethernet de type II (voir ci-dessous figure 4).

FIgure 4 : Trame Ethernet II. Les longueurs des champs sont indiquées en octets

Figure 4 : Trame Ethernet II. Les longueurs des champs sont indiquées en octets.

On notera qu’il n’y a pas de synchronisation ni de cadence fixe des trames. Tous les pairs sont équivalents sur le réseau et peuvent émettre à n’importe quel moment (en respectant le protocole d’accès). Le champ longueur/type codé sur deux octets indique la longueur des données utiles (valeur inférieure à 0x0600) ou le protocole contenu dans la charge utile. Le cas qui nous intéresse le plus est 0x0800, correspondant au protocole IPv4.

Protocoles Niveau 3

Protocoles de niveau 3 : IP & Co : Les trames Ethernet permettent de véhiculer une charge utile selon un protocole spécifié dans le champ Longueur/Type (Ethertype). Le cas le plus fréquent est IPv4.
Le protocole IP, de niveau 3 selon le modèle OSI, n’est pas “ fiable ”, dans ce sens qu’il n’offre aucune garantie vis-à-vis des données endommagées, de l’ordre d’arrivée des paquets, de perte ou de ré-émission de paquets, et ne gère pas la ré-émission en cas de paquet perdu.
Ces tâches doivent éventuellement être assurées par les couches de niveau supérieur. Le seul service assuré par IP est la vérification des en-têtes de paquets grâce à une somme de contrôle (checksum). En cas d’en-tête erroné, le paquet est simplement ignoré. Le but de cette “ rusticité ” est de soulager les éléments d’infrastructure du réseau de toute tâche demandant trop d’intelligence et de reporter ces tâches sur les équipements d’extrémité.

Les paquets IP comprennent un en-tête dont la longueur est comprise entre 6 et 15 octets. Cet en-tête indique :

  • La version du protocole IP (4 bits),
  • La longueur de l’en-tête IP, exprimée en mots de 32 bits (codée sur 4 bits),
  • Le type de service (codé sur 8 bits, mais souvent remis à zéro par les équipements d’infrastructure du réseau, donc ingérable),
  • La longueur totale du paquet IP exprimée en octets, en-tête inclus (codé sur 16 bits),
  • Un champ d’identification sur 16 bits, utilisé pour reconstituer les informations fragmentées en plusieurs paquets,
  • Trois “ drapeaux ” (1 bit chacun) pour la gestion de la fragmentation,
  • Un champ sur 13 bits indiquant la position du fragment par rapport à la première trame (le premier fragment reçoit le numéro 0),
  • La durée de vie (TTL, Time To Live), codée sur 8 bits, indiquant la durée de vie restant au paquet, en secondes. Ce champ est décrémenté à chaque passage dans un routeur ou commutateur et à chaque seconde passée dans une pile d’attente. Lorsqu’il est nul, le paquet est détruit par l’équipement qui le rencontre. Cela a pour but d’éviter de faire tourner indéfiniment des paquets dans des boucles.
  • Le protocole de niveau supérieur, codé sur 8 bits. Ce champ définit le type de données qui se trouve après l’en-tête IP.
  • La somme de contrôle (checksum) sur 16 bits, qui s’applique à l’en-tête IP seulement
  • L’adresse IP de la source (4 octets)
  • L’adresse IP de destination (4 octets)
  • Eventuellement, un champ options (0 à 40 octets)

L’en-tête IP est illustré par la figure 5 ci-dessous :

Figure 5 : Structure de l’en-tête de paquet IP. Les longueurs des champs sont indiquées en octets

Figure 5 : Structure de l’en-tête de paquet IP. Les longueurs des champs sont indiquées en octets.

réseaux audio professionnels Ethernet

Les adresses IP : L’adresse IP est un nombre binaire qui identifie tout dispositif connecté sur un réseau utilisant le protocole IP. Dans le protocole IPv4, l’adresse IP est codée sur 4 octets. On la représente par leur traduction en décimal, séparée par des points. Par exemple 128.128.1.1.
On notera que l’adresse IP correspond souvent à un nom de domaine (par exemple : www.soundlightup.com). La correspondance est établie sur un réseau par le DNS (Domain Name System).

Un sous-réseau est une subdivision logique d’un réseau. Une adresse IPv4 se compose de deux parties : le sous-réseau et l’hôte. Pour que le système puisse distinguer ces deux parties de l’adresse IP, il est nécessaire de lui fournir une indication. Elle se présente sous forme d’un masque de sous-réseau, qui prend la même forme qu’une adresse IP.

réseaux audio professionnels Ethernet

L’adresse du sous-réseau s’obtient alors en faisant un ET logique bit à bit entre l’adresse IP et le masque de sous-réseau. L’adresse de l’hôte à l’intérieur du sous-réseau s’obtient en effectuant un ET logique entre l’adresse IP et le complément du masque de sous-réseau.
Par exemple, dans le cas précédent, avec un masque de sous-réseau égal à 255.255.0.0, l’adresse du sous-réseau vaut 128.128.0.0 et l’adresse de l’hôte vaut 0.0.1.1.
L’adresse IP peut être affectée manuellement, définie lors de la configuration du système d’exploitation (pour un ordinateur), ou plus simplement, affectée automatiquement à la mise sous tension ou à la connexion au réseau par le protocole DHCP (Dynamic Host Configuration Protocol, voir encadré ci-dessous).

Attribution des adresses IP, adressage statique et DHCP

Dans les protocoles liés à Ethernet et IP, l’adresse correspondant à la couche de plus bas niveau est l’adresse MAC. Il s’agit d’une sorte d’adresse physique liée à un matériel particulier et toujours disponible. Pour accéder à la couche supérieure, il faut disposer d’une adresse IP et pouvoir faire la correspondance, dans le réseau, entre chaque adresse MAC présente et une adresse IP unique dans le réseau. Cette correspondance peut être établie manuellement lors de la configuration du réseau et jamais modifiée. On parle d’adressage statique. Celui-ci est réalisable pour un petit réseau (PAN ou petit LAN), mais devient impraticable pour les réseaux de grande envergure.

FIgure 6 : Configuration d’adresse IP et d’appel au serveur DHCP sur un ordinateur fonctionnant sous Windows XP. Ici, on a activé DHCP, l’adresse IP sera attribuée automatiquement. Si on valide “ Utiliser l’adresse IP suivante ”, il faut remplir manuellement les champs “ adresse IP ”’ et “ Masque de sous-réseau ” avec des données pertinentes

Figure 6 : Configuration d’adresse IP et d’appel au serveur DHCP sur un ordinateur fonctionnant sous Windows XP. Ici, on a activé DHCP, l’adresse IP sera attribuée automatiquement. Si on valide “ Utiliser l’adresse IP suivante ”, il faut remplir manuellement les champs “ adresse IP ”’ et “ Masque de sous-réseau ” avec des données pertinentes.

La solution la plus simple consiste à spécifier au composant qui se connecte au réseau de trouver une adresse IP tout seul en utilisant DHCP (Dynamic Host Configuration Protocol). Il s’agit d’un protocole qui permet d’obtenir sans intervention particulière la configuration réseau d’un composant (voir ci-contre figure 6).
Comme le composant n’a pas d’adresse IP et ignore, lors de sa première connexion, tout de la structure de réseau, il ne peut pas engager une communication “ normale ”. La technique utilisée consiste à employer les messages diffusés (broadcast) sur l’adresse IP spéciale 255.255.255.255. Nous n’entrerons pas dans le détail de la structure des messages relatifs à DHCP. Le principe est le suivant : Le demandeur émet un paquet “ DHCPDISCOVER ” en direction du port 67, pour identifier les serveurs DHCP présents sur le réseau.

Les serveurs présents répondent par un paquet “ DHCPOFFER ” destiné au port 68 du demandeur identifié par son adresse physique, proposant une adresse IP. Celui-ci se configure alors en utilisant l’une des adresses IP proposés par les serveurs DHCP et émet un message de type “ DHCPREQUEST ” pour valider ce choix. Le serveur répond avec un message “ DHCPACK ” contenant l’adresse IP pour valider l’attribution. L’adresse IP est alors attribuée et les serveurs DHCP la considèrent désormais comme non disponible (les serveurs DHCP centralisent la modification des paramètres et la répercutent sur les stations du réseau).

Les adresses attribuées par DHCP ne le sont que pour une durée déterminée appelée “ bail ”. Lorsque l’expiration du bail approche, le titulaire peut demander sa reconduction par un message “ DHCPREQUEST ”, le serveur DHCP peut également demander au titulaire s’il souhaite le proroger par un message “ DHCPNACK ”. On notera que d’autres informations sont fournies par DHCP, comme le masque de sous-réseau et l’adresse IP des serveurs DNS.
Bien entendu, DHCP ne fonctionne que si un serveur DHCP est accessible sur le réseau. C’est le cas si le réseau est connecté à Internet. Dans le cas des réseaux locaux, il faut qu’il y ait quelque part un ordinateur connecté avec un serveur DHCP actif. Un tel serveur est souvent inclus dans les systèmes d’exploitation. En revanche, les tout petits réseaux non connectés à Internet devront très souvent se contenter de l’adressage statique, et donc des interventions manuelles associées.


Transport

Protocoles de la couche transport : Selon le contenu du champ “ protocole ” de l’en-tête IP, les données utiles qui le suivent peuvent être transmises selon plusieurs protocoles correspondant aux couches ISO de niveau supérieur.
Il en existe une grande variété, dont nous ne décrirons que quatre exemples parmi les plus significatifs.

– UDP (User Datagram Protocol) est un protocole simple, sans connexion “ non fiable ”. Il est préféré pour les transmissions audiovisuelles (par exemple voix sur IP, VoIP) en raison de sa rapidité et du caractère bénin de la perte d’un paquet dans ces applications. Du fait de sa simplicité, UDP est également utilisé par DHCP.
L’en-tête UDP comporte quatre champs : port source, port de destination, longueur et checksum. La somme de contrôle UDP est obtenue à partir de l’ensemble du contenu UDP (en-tête et données) et d’une fraction de l’en-tête IP. Les données viennent ensuite (voir figure 7 ci-dessous).

FIgure 7 : Segment UDP

Figure 7 : Segment UDP

On notera que le port est le numéro d’interface correspondant à un programme. C’est donc une manière codée de désigner le programme ou le type de programme (navigateur Internet, client de messagerie, etc.) qui a émis ou doit recevoir le segment UDP.

Figure 8 : Paquet UDP. Les protocoles encapsulés montrent le coût du transport, variable entre 31 et 40 octets

Figure 8 : Paquet UDP. Les protocoles encapsulés montrent le coût du transport, variable entre 31 et 40 octets.

– TCP (Transmission Control Protocol)  est un protocole beaucoup plus lourd qui assure la “ fiabilité ”, avec ré-émission en cas de perte et élimination des données dupliquées. Il fait appel à un processus de dialogue comportant des acquittements. La communication implique l’établissement de connexions en trois temps (émission d’une demande de connexion, acquittement de cette demande, acquittement de cet acquittement), puis un jeu de numéros de séquence permet d’identifier chaque paquet composant le flux de données.
Chacun doit faire l’objet d’un accusé de réception et est ré-émis en cas de non-acquittement dans un délai imparti. Du coup, l’en-tête TCP comporte 28 octets. Comme l’en-tête UDP, qui n’en contient que 8, il contient les ports sources et destination, mais aussi une multitude de champs supplémentaires pour gérer la fiabilité de la transmission.

– RTP (Real Time Protocol) est un protocole, spécialisé dans le cas de données à contraintes temps réel (vidéo). Il fonctionne avec UDP ou TCP mais ajoute un en-tête spécifique aux paquets pour informer sur le type de média transporté, le séquencement et la synchronisation des données. Cela permet au récepteur de détecter les paquets perdus sur le réseau ou incorrectement reçus, et de reconstituer le cas échéant un flux de données continu. Malgré son nom, RTP n’est pas réellement temps réel, puisque les réseaux IP ne garantissent pas de délai de transmission maximal, mais peut aussi fonctionner sur des réseaux spécifiquement temps réel.

– SCTP (Stream Control Transmission Protocol) est similaire à TCP, mais au lieu d’être orienté octets, il gère des courtes séquences (“ frames ”). Il peut assurer des communications multi-cibles, dans lesquelles l’extrémité de la connexion est constituée de plusieurs adresses IP.

Les éléments d’infrastructure du réseau Ethernet

réseaux audio professionnels Ethernet

Connecteurs : Le connecteur le plus utilisé pour le réseau Ethernet sur paires torsadées est le RJ-45 (RJ pour “ Registered Jack ”). Ce connecteur est constitué d’un corps en plastique moulé qui comporte une patte de verrouillage et renferme 8 contacts en ligne. Les conducteurs sont sertis, ce qui fait que le RJ-45 est un connecteur très économique et facile à mettre en œuvre (il suffit d’avoir la pince à sertir).
En revanche, on peut lui reprocher son manque de robustesse, en particulier la fragilité du système de verrouillage en plastique. Pour pallier cet inconvénient, certains fabricants comme Neutrik ont créé un connecteur dit Ethercon, comportant un arrangement de contacts compatible avec le RJ-45 dans un fourreau métallique à verrouillage dérivé du connecteur XLR.
Les câbles pour l’Ethernet 10/100 Mbits/s utilisent deux paires torsadées raccordées aux contacts 1-2 et 3-6. L’Ethernet 1 Gbit/s utilise quatre paires torsadées et les 8 contacts du connecteur.

réseaux audio professionnels Ethernet

Câbles : Indépendamment de la catégorie des câbles à paires torsadées, correspondant à des caractéristiques électriques, on distingue les câbles droits (dans lesquels les paires sont connectées aux mêmes contacts à chaque extrémité du câble) et les câbles croisés (dans lesquels les paires sont interverties entre une extrémité et l’autre du câble). Certaines liaisons requièrent un type de câble, d’autres l’autre type de câble.
Toutefois, beaucoup d’éléments de réseau savent détecter les contacts utilisés en émission et les contacts utilisés en réception (pour Ethernet 10/100) et se configurent eux-mêmes de manière à assurer les bonnes liaisons.
De même, de nombreuses interfaces physiques détectent le débit de la liaison, ce qui assure automatiquement la compatibilité des équipements. On notera que les codages de ligne des signaux sont conçus de manière à ce que l’interversion des deux conducteurs qui constituent une paire n’ait aucune influence sur la transmission.

réseaux audio professionnels Ethernet

Répéteurs : Un répéteur est un dispositif très basique fonctionnant sur la couche 1 du modèle OSI, qui reproduit les trames reçues. Un concentrateur (hub) est un répéteur à plusieurs ports Ethernet.
Il conserve la topologie en étoile mais transmet tous les messages vers tous les ports, sauf celui d’où il provient, de manière à permettre le fonctionnement de l’algorithme de détection et élimination des collisions (CSMA/CD) tel que nous l’avons décrit plus haut.
De ce fait, avec un hub, la capacité de l’ensemble du réseau est intégralement partagée entre tous les pairs utilisateurs. Le mode de transmission est obligatoirement half duplex et le mécanisme d’élimination des collisions est souvent sollicité, ce qui nécessite des attentes et des ré-émissions de trames. L’utilisation de hubs est déconseillée.

Commutateurs (switches)

Doté de 8 ports, ce commutateur reconnaît automatiquement les configurations Ethernet de 10 Mbits/s à 1 Gbit/s.

Commutateurs (switches) : Les commutateurs (switches) opèrent sur une couche supérieure. Ils ne répètent pas les trames reçues sur tous les ports Ethernet, mais uniquement sur le ou les ports réellement concernés.
Pour cela, ils déchiffrent les adresses MAC ou adresses IP (selon la couche de travail) d’origine et de destination et s’appuie sur une connaissance des pairs connectés au réseau, le plus souvent obtenue par auto-apprentissage.

Cela nécessite une intelligence embarquée plus importante que dans le cas d’un hub, assortie d’un mécanisme de découverte du réseau et/ou d’identification des éléments qui s’y connectent, et parfois une intervention manuelle pour configurer l’ensemble.


ce commutateur Ethernet 10/100 Mbits/s détecte les collisions, identifie automatiquement le débit sur chaque branche et distingue les câbles droits et les câbles croisés

Ce commutateur Ethernet 10/100 Mbits/s détecte les collisions, identifie automatiquement le débit sur chaque branche et distingue les câbles droits et les câbles croisés.

La conséquence est que la nature du réseau change. Le mécanisme de CSMA/CD ne fonctionne plus, mais chaque branche du réseau peut fonctionner en full duplex, l’utilisation de la capacité étant optimisée. De ce fait, la topologie avec switch donne l’impression de disposer de plusieurs voies de communication distinctes entre les éléments du réseau.
Certains commutateurs (commutateurs administrés ou managed switches) peuvent être surveillés, contrôlés et gérés à distance par divers moyens, le plus courant étant un petit serveur web intégré.
Ainsi, sur tout ordinateur connecté au réseau, un opérateur peut accéder à la page web du switch (par son adresse IP ou par une URL), prendre connaissance de certains détails du réseau et paramétrer, activer ou désactiver certaines fonctions ou caractéristiques du commutateur.

Routeur

Routeurs :
Des commutateurs travaillant sur la couche 3 sont habituellement appelés routeurs.
Ils permettent l’interface entre plusieurs réseaux ou entre des réseaux utilisant plusieurs supports différents (wi-fi, ADSL, etc…).

Conclusion

Il existe de nombreux systèmes utilisant Ethernet et IP pour transmettre des signaux audiovisuels : voix sur IP (VoIP), vidéo sur IP, etc. Toutefois, elles ne sont adaptées qu’à des applications particulières et éloignées du monde du spectacle vivant et du temps réel.
En revanche, le coût des infrastructures IP est très modique et incite à reprendre les interfaces physiques Ethernet somme toute performantes et bon marché pour les adapter aux besoins de l’audio professionnelle, et notamment des applications en temps réel et au spectacle vivant.

Plusieurs standards ont été développés dans ce sens, avec des fortunes diverses, et, du moins pour les premiers, pas mal de larmes et de sueur versées. Mais depuis les premières tentatives, il a coulé de l’eau sous les ponts, l’expérience finit par payer, on dispose désormais de standards satisfaisants sur le plan des performances et faciles à mettre en œuvre, car compatibles avec les normes récentes en vigueur dans le domaine de l’informatique.

Dans notre prochain opus, nous nous pencherons sur le réseau qui depuis quelques années a le vent en poupe, et s’impose de plus en plus dans le domaine de l’audio numérique, à savoir DANTE.

Glossaire

Checksum : “ somme de contrôle ”, information ajoutée à un ensemble de données (paquet) pour en vérifier l’intégrité après transmission ou enregistrement/lecture. La parité est une forme de checksum simplifiée.

Moments d’un code : états de la variable physique représentative de ce code. Par exemple, un code binaire transmis avec des valeurs de tension repérées -1 et +1 est un code à deux moments. Un code transmis avec des valeurs de tensions –1, 0, +1 a 3 moments (comme Ethernet 100). Un code transmis avec des valeurs –2, -1, 0, +1, +2 est un code à cinq moments (comme Ethernet 1000)

Monomode ou multimode (fibre optique) : Une fibre optique en verre est un guide d’ondes lumineuses qui exploite la réflexion de la lumière sur la face interne de l’interface entre un cœur de verre et une gaine de verre d’indice de réfraction moins élevé.

Figure 9 : Fibre optique multimode (en haut) et monomode (en bas)

Figure 9 : Fibre optique multimode (en haut) et monomode (en bas)

Lorsque le cœur est de diamètre très mince, de manière à ne permettre la transmission que du faisceau parallèle à l’axe de la fibre (quelques µm), celle-ci est dite monomode.
Lorsque le cœur est de diamètre plus important (par exemple 50 à 150 µm) et permet la propagation de faisceaux lumineux subissant un nombre variable de réflexion à l‘interface cœur/gaine, on parle de fibre multimode (voir figure 9 ci-contre).

La fibre monomode permet d’atteindre de très faibles atténuations. Elle autorise donc des liaisons de plus longue portée entre deux répéteurs. Toutefois, elle est plus délicate à fabriquer et surtout à connecter et à assembler.
La fibre multimode est sujette aux phénomènes de dispersion. Elle possède donc une bande passante plus faible, et ce d’autant plus que la liaison est longue. La fibre en plastique est plus grossière et donc toujours multimode.

Nom de domaine : un nom de domaine est un alias (“ surnom ”), possédant une syntaxe particulière, permettant de retrouver facilement un site (ou un pair sur un réseau) sans en connaître l’adresse IP.

Port : ce terme a une multitude de significations.

  • Connecteur, point d’accès (port parallèle, port série, port USB…)
  • Dans un ordinateur, adresse interne affectée à une application (programme). Codée sur 16 bits, elle sert à identifier l’application à laquelle les données sont destinées. Les ports 0 à 1023 sont dits ports reconnus et sont réservés aux processus système ou aux programmes essentiels (communications réseau, administration, etc.)

Qualité de service (QoS) : capacité d’un réseau à acheminer dans de bonnes conditions un type de trafic donné, en termes de disponibilité, débit, délais de transmission (latence), gigue (fluctuations de la latence), pourcentage de perte de paquets, etc.

 

Une réflexion au sujet de « La problématique des réseaux audio professionnels »

Laisser un commentaire