Comment faire rentrer notre environnement dans notre smartphone ? Wilfried Pohnke/Pixabay , CC BY-SA

Des caméras 3D dans nos smartphones : comment numériser notre environnement ?

Cet article est publié dans le cadre de la Fête de la science (du 5 au 13 octobre 2019 en métropole et du 9 au 17 novembre en outre-mer et à l’international) dont The Conversation France est partenaire. Cette nouvelle édition a pour thème « À demain, raconter la science, imaginer l’avenir ». Retrouvez tous les débats et les événements de votre région sur le site Fetedelascience.fr.


Il vient d’être annoncé récemment que des smartphones avec caméra 3D sont attendus cette année. De nouvelles fonctionnalités vont ainsi pouvoir être intégrées, telles que : la capture photo et vidéo en 3D, la reconnaissance d’objets, la reconstruction 3D d’objets ou d’environnements ou encore la création d’avatars.

Comment faire « entrer » ces environnements 3D dans nos smartphones ?

L’un des plus importants processus impliqués par l’arrivée de ces fonctionnalités concerne la numérisation de l’environnement que l’on souhaite capturer. Le principe est le même pour tous les signaux multimedia, qui sont perçus par les systèmes auditifs et visuels humain sous forme continue. Pour pouvoir les manipuler et/ou les stocker sur un appareil numérique, il suffit de les numériser (les discrétiser en termes mathématiques). Par ces termes, on entend sélectionner un ensemble d’échantillons du signal. C’est par exemple le rôle du capteur d’un appareil photo numérique, constitué d’une multitude de cellules sensibles à l’intensité lumineuse de la scène à photographier. L’ensemble des informations capturées par l’appareil est ensuite restitué sous forme de fichier numérique, correspondant, dans ce cas, à une grille régulière, composée de pixels, où chacun représente un échantillon du signal original.

L’enjeu principal de ces techniques de numérisation est de « dissimuler » à l’utilisateur cette discrétisation. Pour cela, il est nécessaire de :

  • sélectionner un grand nombre d’échantillons, de telle sorte que l’espacement entre chacun d’entre eux (qu’on appelle le pas d’échantillonnage, symbolisé par l’espacement Te indiqué à la figure ci-dessous, dans le cas d’un signal 1D) soit le plus petit possible,

  • restreindre l’ensemble des valeurs numériques possibles associées à chacun des échantillons (correspondant à l’intensité lumineuse pour une image) à un ensemble de valeurs discrètes le plus large possible. Ce procédé est appelé la quantification et s’exprime généralement en bits. À titre d’exemple, le signal 1D discrétisé illustré en vert dans la figure ci-dessous a été quantifié sur 2 bits, du fait que son intensité n’est plus représentée que par 4 valeurs (00, 01, 10, 11).

Mais la « dissimulation » de cette discrétisation nécessite un espace de stockage non négligeable, et même si à l’heure actuelle on a beaucoup recours au cloud computing (afin de ne pas surcharger celui de nos appareils numériques), il est tout de même indispensable de faire appel à des techniques de compression efficaces, notamment quand il s’agit de données 3D, beaucoup plus volumineuses que de simples images.

Illustration de la numérisation (en vert) d’un signal analogique 1D continu (en rouge) variant au cours du temps (le long de l’axe des abscisses). Le signal vert a été quantifié/codé sur deux bits (dont les valeurs possibles, composées de deux chiffres, sont indiquées en vert le long de l’axe des ordonnées). ENS Lyon

Maintenant que nous avons compris le principe de la numérisation de signaux 1D (sons) et 2D (images), ajoutons encore une dimension : nous obtenons alors des objets tridimensionnels. Ces derniers sont le plus souvent représentés/modélisés, en informatique, par des maillages surfaciques (la figure ci-dessous en est un exemple), constitué d’un ensemble d’échantillons répartis sur la surface de l’objet et généralement reliés par des triangles. Mais là où cela se complique par rapport aux images, c’est que les échantillons sont situés dans un espace tridimensionnel et à des endroits bien spécifiques, pour refléter au mieux la forme de l’objet. La figure montre par exemple très distinctement que plus la courbure de la surface est importante ou plus cette dernière contient de détails non lisses et plus les échantillons sont rapprochés les uns des autres. À cette irrégularité s’ajoute aussi le fait que les échantillons n’ont pas forcément le même nombre de voisins, contrairement aux images où les pixels sont disposés sur une grille régulière. C’est ainsi la raison pour laquelle les techniques de traitement d’images (telles que l’acquisition, la numérisation, le débruitage ou la compression d’images) ont été difficiles à étendre aux maillages et par conséquent qu’elles ont mis plus de temps à voir le jour.

Exemple de maillage triangulaire. Rémi Synave

Principes de la compression de signaux multimédia

Maintenant, voyons comment il est possible de compresser ces signaux numériques, en s’autorisant quelques pertes qu’il va falloir chercher à dissimuler. Le principe des méthodes de compression est d’éliminer la redondance présente dans la représentation naturelle des signaux, qui se traduit par exemple sur une image numérique par la dépendance existante entre chacun des pixels et ses voisins. En effet, vu la taille d’un pixel, sa luminosité diffère souvent très peu de celle de ses voisins les plus proches. Plusieurs techniques permettent de réduire cette redondance, en transformant les pixels initiaux en un ensemble de coefficients moins dépendants les uns des autres.

Le contrôle des pertes dans la compression

Le principe des méthodes de compression avec pertes est de changer d’espace pour représenter le signal de façon plus compacte. Ce qu’on cherche à faire c’est à projeter le signal dans le domaine fréquentiel où les informations sont naturellement moins corrélées (c’est-à-dire moins dépendantes les unes des autres) et où il est possible d’en éliminer certaines (en général celles d’amplitudes les plus faibles), sans que cela soit trop perceptible. De cette façon, la majorité de l’information dans l’espace fréquentiel (l’ensemble des coefficients) se retrouve regroupée autour de l’origine, ce qui permet de la coder de façon beaucoup plus compacte.

Parmi les transformations qui permettent une telle projection, citons la « bien connue » transformée de Fourier, mais également la transformée en ondelettes, qui a révolutionné l’ère numérique depuis les années 1980 et doit sa popularité à notamment deux acteurs majeurs dans son développement : Yves Meyer et Ingrid Daubechies, mais aussi à encore bien d’autres chercheurs.

Grâce aux ondelettes, en plus d’obtenir une séquence de bits de taille minimale après compression d’un signal multimédia, sa décompression peut s’effectuer de manière progressive afin d’en offrir à l’utilisateur une visualisation et une manipulation adaptée au terminal numérique qu’il utilise. Ceci sans que la puissance de calcul, la capacité mémoire ou de stockage de ce dernier ne soit un frein (notamment si l’on considère un maillage 3D très dense, dont la taille peut parfois dépasser plusieurs gigaoctets). Il est ainsi possible d’envoyer d’abord à l’utilisateur un aperçu très grossier du signal que l’on souhaite lui transmettre, puis de le raffiner successivement en fonction de son terminal et de ses besoins, évitant ainsi de devoir compresser le signal en plusieurs exemplaires (chacun adapté à un terminal bien particulier) !