Haut-parleurs intelligents

Avec la montée en puissance de l'IoT, des entreprises numériques comme Amazon, Google et Apple ont utilisé le haut-parleur analogique traditionnel comme plate-forme pour un tout nouveau concept : le haut-parleur intelligent. La sortie audio est et restera toujours essentielle pour les haut-parleurs intelligents, mais elle offre également de nombreuses autres fonctions. En tant que nœuds IoT connectés en réseau, ils peuvent recevoir des informations, agir sur celles-ci, créer des sorties de contrôle et piloter leur cône de haut-parleur. Leur capacité vient du package d'intelligence artificielle qu'ils hébergent. Les plus connus sont Amazon Alexa, Google Assistant, Microsoft Cortana et Siri d'Apple.

Ces packages d'intelligence artificielle fonctionnent non seulement sur des haut-parleurs intelligents, mais aussi sur de nombreux autres dispositifs matériels, fabriqués par le fournisseur d'IA ou par un tiers. Environ 1 000 entreprises ont annoncé l'intégration d'Alexa dans de nombreux dispositifs au CES en janvier dernier. Les plateformes comprennent des téléphones intelligents, des ordinateurs et même d'autres dispositifs d'automatisation domestique, mais nous nous concentrerons autant que possible sur les offres de haut-parleurs intelligents et leurs capacités. Cependant, nous explorerons également une autre application très différente pour les haut-parleurs intelligents : leur utilisation croissante dans les systèmes de sonorisation multizones dans les aéroports, les gares et autres espaces publics, y compris les arrêts d'autobus et les véhicules de transport public.

Assistants personnels à commande vocale

En octobre 2017, « What Hi-Fi? » a publié un article sur les haut-parleurs intelligents intitulé « Haut-parleurs intelligents - tout ce que vous devez savoir ». Il expose de façon intéressante la nature des dispositifs et des tendances du marché.

Que peut faire un haut-parleur intelligent ?

Un haut-parleur intelligent comprend un package d'IA comme mentionné ci-dessus, fonctionnant sur un hôte matériel. En tant que tel, il peut répondre à des commandes vocales qui lui demandent de :

Se connecter sans fil via Bluetooth
Lire des chansons ou une liste de lecture
Régler un programmateur
Commander votre système AV
Commander vos lumières et votre chauffage
Fournir un bulletin météo ou de circulation
Réserver un Uber
Créer une liste de choses à faire
Raconter une blague

Ses capacités exactes dépendent de la solution d'IA qu'il héberge et des autres dispositifs intelligents de votre maison.

Les haut-parleurs intelligents fonctionnent également avec des applications telles que Spotify, Tunein Radio, Philips Hue (éclairage), Nest, Hive, Samsung Smart Things, IFTTT (If This Then That), Kayak, Domino's Pizza et d'autres.

Image 1 : Haut-parleur intelligent Amazon Echo - Image via Wikipédia

Fonctionnalité multi-pièces

Possibilité de lire différentes pistes audio dans plusieurs pièces, ce qui nécessite des systèmes de contrôle complexes et un câblage intrusif. Un article, « Qu'est-ce que le Hi-Fi dans plusieurs pièces ? », décrit comment les haut-parleurs intelligents éliminent ce coût et cette complexité grâce à des systèmes sans fil à commande vocale simples et abordables.

Ces haut-parleurs peuvent communiquer entre eux et peuvent être commandés par téléphone, tablette ou application informatique, ou directement par la voix. Il est possible de jouer le même morceau à l'unisson ou de jouer une musique différente dans chaque pièce. Les autres options incluent :

Diffusion de la musique en continu depuis Apple Music, Spotify ou Tidal
Récupération de la musique à partir d'un périphérique de stockage en réseau (NAS)
Diffusion à partir d'un téléphone

Les systèmes plus avancés peuvent proposer AirPlay, le Bluetooth ou Chromecast.

Les systèmes sont disponibles auprès de marques orientées hi-fi telles que Sonos, Pure, Raumfeld, Yamaha, Bose, Sony, LG, Panasonic et Samsung. Plus récemment, des offres sont apparues/apparaissent d'Apple et de Google. Les systèmes multi-pièces fonctionnent soit en créant leur propre réseau maillé, soit en utilisant le système Wi-Fi existant du bâtiment. Les haut-parleurs Sonos, LG et Tibo, par exemple, forment leur propre réseau maillé. Cela rend les systèmes plus robustes, car ils ne dépendent pas du Wi-Fi domestique lors de la diffusion de musique. En revanche, les haut-parleurs intelligents qui utilisent le Wi-Fi ne dépendent pas seulement de la force et de la stabilité du réseau, mais ont également un impact sur la bande passante du réseau.

Il existe également de nombreuses possibilités d'intégration d'un système multi-pièces. La plupart des haut-parleurs multi-pièces peuvent également fonctionner en tant que haut-parleurs autonomes et les systèmes peuvent comprendre des enceintes, des barres de son, des amplificateurs et des diffuseurs de flux. Les amplificateurs et les diffuseurs de flux permettent la connexion à une chaîne hi-fi existante, par exemple via Sonos Connect ou Bluesound Node. Denon et Yamaha proposent également des équipements permettant d'intégrer leur électronique AV pour donner à leurs amplificateurs home cinéma des capacités multi-pièces.

Ensembles d'intelligence artificielle (IA) et plates-formes de haut-parleur

Nous avons examiné ci-dessus les capacités des haut-parleurs intelligents et comment ceux-ci peuvent fonctionner, en particulier dans les installations multi-pièces. Mais quels types de produits sont disponibles, en termes de combinaisons IA/haut-parleur ? Voici quelques exemples. Notons que les deux premiers sont des fabricants de chaînes hi-fi qui ont ajouté l'IA, tandis que les deux autres sont plus axés sur la fonctionnalité d'IA :

Harman Kardon INVOKE - exécute Microsoft Cortana

Audio de haute qualité avec plusieurs haut-parleurs de graves et d'aigus
Capacités d'assistant à commande vocale
Gestion des e-mails à venir
Fonctionne sur plusieurs dispositifs, y compris les PC et téléphones Windows 10
Skype à commande vocale
Contrôle les dispositifs domestiques intelligents, tels que l'éclairage et le chauffage

Sonos One

Intègre Amazon Alexa
Prend en charge les opérations multi-pièces (« Alexa, joue Bowie dans le salon » ou « Alexa, joue Bowie partout »)
Possibilité de combiner deux haut-parleurs pour former une paire stéréo
Un réseau de 6 microphones de haute qualité, qui supprime le bruit, maintient une communication fiable avec Alexa même lorsque la musique est forte
Prend en charge Amazon Prime Music et Spotify

Google Home Mini

Prend en charge le Wi-Fi et le Bluetooth
Son 360° avec driver de 40 mm
Microphone de reconnaissance vocale à champ lointain
Fonctionne avec Android et iOS
Prend en charge Spotify, Google Play Music, Tunein et BBC
Prend en charge Nest, Philips Hue Wemo, tp-link, SmartThings, IFTTT, Hive, Lightwave, Wiz, Netatmo et les dispositifs d'automatisation domestique Tado
Prend en charge YouTube, Netflix et les canaux de divertissement Google Photos
Prend en charge BBC News, FT, Sky News, Sky Sports, The Telegraph, The Guardian, The Economist, Monocle, The Sun, TC, CNN, NPR One, The Huffington Post et Euronews
Les dispositifs en streaming comprennent Google Chromecast, Google Chromecast Audio et Philips, Sony, Xiaomi, Nvidia, Bang & Olufsen, Polk et Raumfeld

Alexa Echo 2, qui exécute Alexa

Deuxième génération, moins cher qu'Echo
Diffusion par Wi-Fi et Bluetooth
Sortie de ligne audio pour se connecter aux dispositifs existants
Technologie de deuxième génération de microphones à champ lointain - meilleur traitement du mot de veille et suppression améliorée du bruit
Alexa Routines : programmer et contrôler plusieurs dispositifs avec une seule commande. (« Alexa Good Morning » peut signaler l'allumage de vos lumières intelligentes, l'ouverture des stores et la mise en route de votre bouilloire).
Les marques compatibles incluent Philips Hue, TP Link et Wemo
La configuration se fait via l'application Alexa
Appeler ou envoyer un message aux autres utilisateurs du dispositif Alexa

Le point de vue des développeurs

De nouveaux haut-parleurs intelligents peuvent être mis sur le marché par des développeurs travaillant avec Google Assistant, Amazon Alexa et d'autres ensembles d'IA. Google et Amazon, par exemple, fournissent des directives aux développeurs sur la façon d'utiliser leurs produits :

Directives développeur de Google Assistant

Les développeurs peuvent commencer à travailler avec Google Assistant très simplement et sans connaissances de codage. Des applications simples comme un jeu de questions ou un test de personnalité peuvent être créées en remplissant une feuille de calcul. Des personnalités prédéfinies peuvent ensuite être ajoutées pour définir la voix, le ton, la musique, les effets sonores et la sensation conversationnelle naturelle pour les utilisateurs de votre application.

Des voies de développement plus puissantes sont également proposées. La principale façon dont les utilisateurs interagissent avec Google Assistant est de mener des conversations dans les deux sens avec lui. Des applications sophistiquées peuvent être conçues pour exploiter cette interface utilisateur, appelée « Conversational UI » (interface utilisateur conversationnelle). Les conversations peuvent être conçues pour une variété de surfaces, telles que les haut-parleurs à commande vocale ou les conversations visuelles sur les téléphones Android.

Les applications étendent Google Assistant en vous permettant de créer des actions qui permettent aux utilisateurs d'accomplir des actions avec vos produits et services. L'option de développement la plus simple consiste à utiliser un modèle, mais il existe d'autres choix :

Dialogflow peut être utilisé pour concevoir et construire votre propre expérience de conversation. Il inclut un moteur de compréhension du langage naturel (NLU) qui analyse le langage naturel et humain.

Actions SDK est conçu pour des actions simples aux conversations très courtes, avec une variabilité d'entrée utilisateur limitée. Souvent, de telles actions n'exigent pas une solide compréhension du langage et réalisent généralement un cas d'utilisation rapide.

Directives développeur Alexa

Alexa est le service vocal basé sur le Cloud d'Amazon, disponible sur des dizaines de millions de dispositifs d'Amazon et de fabricants tiers. Avec Alexa, vous pouvez créer des expériences vocales naturelles qui offrent aux clients un moyen plus intuitif d'interagir avec la technologie qu'ils utilisent au quotidien. La collection d'outils, d'API, de solutions de référence et de documentation d'Amazon facilitent la tâche de tous ceux qui conçoivent avec Alexa.

Les développeurs peuvent ajouter des capacités ou des compétences à Alexa, en utilisant le kit de compétences Alexa (ASK) (une collection d'API en libre-service, des outils, une documentation et des échantillons de code pour concevoir des expériences vocales naturelles). Alexa peut également être intégré directement dans des produits tiers avec le service vocal Alexa Voice Service (AVS), ce qui permet d'ajouter le contrôle mains libres à n'importe quel dispositif connecté.

De plus, les caméras, les lumières, les systèmes de divertissement et autres dispositifs intelligents peuvent être connectés à Alexa pour faciliter la commande vocale. Il est également possible de construire des gadgets Alexa ou de créer des compétences interactives qui fonctionnent avec ces gadgets, tels que les boutons Echo.

Haut-parleurs intelligents pour systèmes de sonorisation

Les passagers qui se trouvent dans des centres de transit, tels que les gares ou les aéroports, ou dans des points de transit très étendus comme les arrêts d'autobus ou dans les véhicules, ont constamment besoin d'informations en temps réel sur les horaires et le statut des transports. La transmission de ces informations est une tâche complexe, car chaque petit secteur a besoin de son propre flux d'information, et cette information peut changer rapidement.

Le défi peut être relevé efficacement avec des systèmes de haut-parleurs modernes où il est possible de s'adresser aux interlocuteurs locaux de façon individuelle et de leurs fournir des informations pertinentes à partir d'un contrôleur central.

Systèmes de synthèse vocale

Les systèmes de synthèse vocale peuvent être déployés aux arrêts d'autobus et sur les quais ferroviaires, parallèlement aux affichages numériques à LED défilants. Ces systèmes peuvent générer une sortie audio à partir des données textuelles transmises à ces écrans, au profit des passagers aveugles ou malvoyants. Les systèmes avancés peuvent inclure des émissions de radio locale (LPFM) pour annoncer les heures de départ et d'arrivée, ce qui aide les passagers qui rentrent dans les parkings.

Systèmes d'annonce vocale

Les systèmes d'annonce vocale (VAS) font à bord des annonces vocales automatiques de prochain arrêt sur les principaux points de transfert, les points de repères et les avis de sécurité. Les passagers sont également tenus informés de leur emplacement actuel. Les systèmes VAS sont coordonnés avec la signalisation LED à bord des trains ou des bus.

TextSpeak est un concepteur et fabricant américain de systèmes de synthèse vocale. Leur gamme de produits comprend une série de modules embarqués qui convertissent le texte ASCII en une voix naturelle et claire avec un vocabulaire illimité. Ces périphériques à brancher fonctionnent à partir d'une large gamme d'entrées, telles que les données, l'affichage dynamique, les panneaux numériques, les textes défilants et les affichages LED à défilement, pour générer de la parole en temps réel. Les sorties peuvent être livrées aux systèmes de notification de masse et d'information passagers, en utilisant les systèmes d'amplification earBridge de la société pour les applications mobiles et fixes.

Ces produits peuvent être utilisés pour la modernisation des systèmes d'affichage d'informations passagers (PIDS). Les exemples d'application TextSpeak incluent la RATP et le métro de New York.

Systèmes automatiques d'annonces de vols (AFAS)

Imaginez que vous venez d'arriver dans un aéroport fréquenté. Pensez maintenant à la variété de messages d'information dont vous aurez peut-être besoin pour achever votre transfert sans stress, confusion ou retard inutile.

Naturellement, tout système d'information doit s'adresser à la fois aux passagers d'arrivée et de départ. Les types d'annonces nécessaires sont les suivants :

Contrôle de sécurité
Derniers appels d'embarquement/débarquement
Informations de porte
Messages d'arrivée de vol
Transporteur de bagages retardé
Annulation de départ ou d'arrivée
Autres messages personnalisés

La transmission automatique de ces types de messages, qui comporte une myriade de versions pour répondre aux besoins particuliers de chaque porte d'arrivée et de départ, de la salle des bagages et de toutes les autres zones, peut être assurée par un système AFAS (Systèmes automatiques d'annonces de vols) moderne.

L'un de ces systèmes, appelé Blazon Pro AFAS, est fourni par Teckinfo. Le système, qui fonctionne dans un environnement Windows, est modulaire et évolutif. Il peut fournir des annonces automatiques relatives aux événements programmés et non programmés, tels qu'énumérés ci-dessus, et peut le faire dans l'un des trois modes suivants : automatique, semi-automatique ou manuel.

En mode automatique, le système accepte les entrées des systèmes ATC, FIDS/ATS ou PIDS et génère des annonces à l'aide de modèles de messages préconfigurés. En mode semi-automatique, l'opérateur reçoit des informations du système ATC, FIDS/ATS ou PIDS, modifie le message en file d'attente si nécessaire, puis l'envoie pour annonce. En mode manuel, l'opérateur fait défiler les messages provenant du terminal AAS, puis transmet l'annonce.

Le système peut stocker, rappeler, générer, assembler et lire des phrases pré-enregistrées, des messages complets et des annonces générales, et synchroniser son contenu avec des présentations vidéo.

(NB : ATC = Air Traffic Control (contrôle de la circulation aérienne), FIDS = Flight Information Display System (système d'affichage des informations de vol), ATS = Airport Transit System (système de transit aéroportuaire), PIDS = Passenger Information Display System (système d'affichage des informations passagers) et AAS = Automatic Announcement System (système d'annonces automatiques).

Image 2 : Les passagers des aéroports ont besoin d'informations détaillées et constamment mises à jour - Image via Flickr

Technologie de sonorisation destinée aux développeurs

Le système Audio sur IP, également connu sous le nom d'AoIP ou Audio en réseau, est la toute dernière technologie de distribution de signaux audio, permettant de répartir la voix et la musique sur une longue distance et de les contrôler entièrement par un câble Ethernet standard en ce qui concerne la musique de fond et les applications de sonorisation. Étant basés sur IP, ces systèmes permettent de diffuser des contenus spécifiques exclusivement sur des stations sélectionnées. Contrairement aux systèmes de sonorisation conventionnels qui nécessitent un câble coaxial relié à chaque enceinte, les microphones et haut-parleurs sont traités comme des éléments du réseau et sont accessibles par des adresses IP via les réseaux LAN/WAN existants.

2N est une entreprise qui exploite cette technologie avec son système d'audio sur IP appelé NetSpeaker. Contrôlé par un logiciel de gestion centralisée téléchargeable librement et basé sur PC, ce système permet aux utilisateurs de diffuser de la musique, des annonces vocales enregistrées, des tonalités, des jingles et des promotions ou des annonces de télé-avertissement en direct vers n'importe quelle zone du site, un site distant ou plusieurs zones/sites via une connexion Web, LAN ou WAN standard.

Quelques projets de reconnaissance vocale

Si vous souhaitez expérimenter la reconnaissance vocale et la technologie d'interaction, le site Web de Farnell présente des projets pour vous aider.

Matrix Creator est l'un de ces projets. Il comprend des instructions étape par étape pour configurer le service vocal Alexa Voice Service (AVS) sur un Raspberry Pi avec Matrix Creator. Il montre comment accéder à AVS et le tester à l'aide de notre exemple d'application Java (qui fonctionne sur un Raspberry Pi), d'un serveur Node.js et d'un moteur à mot de veille tiers utilisant le réseau de micro MATRIX. Vous utiliserez le serveur Node.js pour obtenir un code d'autorisation Login with Amazon (LWA) en visitant un site Web à l'aide du navigateur Web de Raspberry Pi.

Un autre kit de projet - de Google et appelé AIY Projects - est sorti au mois de mai de cette année dans le magazine officiel de Raspberry Pi, The MagPi. Ce kit matériel, qui vous permet d'ajouter l'interaction vocale à vos projets Raspberry Pi, comprend une carte accessoire Google Voice Hardware Accessory on Top (HAT), un microphone stéréo Voice HAT, un grand bouton arcade, des fils et un étui en carton personnalisé pour tout monter.

Il suffit d'ajouter un Raspberry Pi 3. Ensuite, après avoir configuré le logiciel, vous aurez accès au SDK de Google Assistant et à l'API de Google Cloud Speech.

Le site Web de Farnell contient des informations sur la façon de configurer ce projet.

Image 3 : composants du kit de projet AIY

Conclusion

D'ici 2018, 30 % de nos interactions avec la technologie se feront par le biais de « conversations » avec des machines intelligentes. Les haut-parleurs intelligents comme Alexa et Google Assistant sont des exemples évidents de cette technologie et des éléments de plus en plus familiers de notre environnement domestique. D'autres améliorations de la reconnaissance vocale et l'intelligence artificielle profonde qui la sous-tend offriront de nouvelles possibilités aux développeurs de systèmes pour une gamme beaucoup plus large d'applications, en particulier à mesure que les outils de développement deviendront plus largement disponibles.

Nous avons également constaté les avantages d'une simple mise à niveau des haut-parleurs pour en faire des dispositifs visibles sur le réseau qui peuvent être commandés individuellement, et les implications pour la mise en place de systèmes de sonorisation plus souples, efficaces et économiques.