Big Data: des données pour prédire l'avenir

Cet article a pour but de vulgariser des concepts afin de partager des connaissances, et surtout, générer des discussions et des échanges. L'idée et la mise en page derrière cet article ont été fortement inspirées par l'excellent blog « A List Apart ».

Bertrand Lirette travaille (entre autres) présentement comme technicien en travaux d'enseignement et de recherche pour le baccalauréat en design graphique à l'Université Laval à Québec. Il essaye de stimuler la connaissance des étudiants face à l'interface et l'interactivité en donnant des laboratoires dans le cours universitaire Interface et interactivité. Il a appris la technique en techniques d'intégration multimédia au Cégep de Sainte-Foy et a peaufiné ses connaissances en intégration, programmation et charge de projet pendant plus de 5 ans en agence de publicité chez Triomphe communication marketing. Il partage les valeurs du Breakdance (bboying) et passe beaucoup (trop) de temps dans l'organisme à but non lucratif qu'il a fondé, Québec B-Boys.

Suggestions / commentaires?
hey@bertrandlirette.com

Avance rapide dans les années 90: l'internet fit sa plus grande percée. Le fait de pouvoir communiquer, non seulement par la voix comme c'était déjà possible via un téléphone, mais aussi de pouvoir échanger des documents, correspondre avec plusieurs personnes, rendait ce nouveau moyen de communication bouleversant. En un instant, nous pouvions rejoindre une multitude de gens, peu importe leur emplacement géographique, de manière quasi instantanée.

Afin de pouvoir se retrouver à travers toutes ces informations, un langage de balisage ainsi que des programmes appelés des navigateurs web ont dû être créés. Il était désormais possible d'afficher les données sous une forme facilement lisible. La naissance du langage de balisage HTML et les navigateurs web comme Mosaic ont permis à des chercheurs de partout à travers le monde de diffuser des informations de manière structurée.

Quelques années plus tard, ce fut au tour de la population mondiale d'accéder à ce pouvoir. L'accès à Internet fut démocratisé, principalement avec l'avènement des connexions haute vitesse qui permettaient de naviguer plus rapidement à travers cette foule d'information.

Vint ensuite un bouleversement relié à l'information se trouvant dans Internet. La facilité de publier des informations sous la forme de textes et même de vidéos amena l'internet à se bonifier de contenus provenant d'individus de toute sphère. Ce n'était plus seulement les gens ayant les connaissances techniques qui pouvaient diffuser l'information (les zélés appellent cette époque le « web 2.0 »).

Depuis quelques années, nous avons vécu l'apparition de données automatiquement mises en ligne. Celles-ci ne sont pas saisies par des usagers, mais bien par des capteurs. On retrouve ceux-ci de plus en plus autour de nous. Ils se retrouvent sous la forme de caméras pointées sur les autoroutes, de GPS dans les téléphones mobiles, de podomètres dans les semelles de vos souliers et j'en passe. Ce sont ces capteurs qui, combinés avec la puissance d'analyse possible des ordinateurs actuels, permettent par exemple de suggérer un chemin alternatif pour éviter un embouteillage sur l'autoroute Charest, de signifier que vous avez atteint votre objectif de pas dans la journée ou de voir que Karl-Éric a rejoint ses amis au Boudoir. Le pont entre le virtuel et le réel se fait maintenant de manière automatique.

Tous ces événements sont constatés chaque jour. Toutes ces nouvelles sources d'information combinées avec la puissance de calcul des ordinateurs verra son potentiel décuplé dans les années à venir. Le croisement de données peut se définir par le fait de prendre une donnée et de l'associer avec une information, souvent dans le but d'en tirer une conclusion. Par exemple, en observant les dates et les heures d'achat du savoureux « Venti » de Jérôme au Starbucks du coin, on peut constater que la majorité de ses achats se font régulièrement à 1 minute près de ceux de Frédéric. Un croisement de données permettrait de déterminer qu'un lien regroupe ces deux personnes. Diantre! Serait-ce deux collègues de travail prenant leur pause en même temps? Vous me direz certainement que c'est un exemple simple et je vous répondrai que oui. En pédagogie, c'est un principe. On commence simplement et augmente la difficulté du concept graduellement. Daignez donc me suivre dans le « rabbit hole »...

Allons-y avec un autre cas. Prenons Jean par exemple. Ce jeune étudiant, comme la plupart de ses collègues, possède un téléphone cellulaire. Il l'utilise entre autres pour consulter les horaires d'autobus. Ce matin, il prend la (ou « le » selon votre provenance) 15 comme chaque semaine pour aller à son cours en design. Malheureusement, lorsqu'il débarque au Ministère du Revenu, il constate que son transfert vers la 7 n'est pas disponible. Un panneau indique un changement au parcours. Alex utilise alors son application mobile pour trouver un parcours alternatif, car son trajet habituel n'est pas disponible. Cette action, quoique banale pour Alex, génère une information qui pourrait être utilisée à bon escient par le concepteur de l'application.

Le fait d'accéder à une application est une action facilement identifiable par l'application. Avec un enregistrement des données antérieures à faire frémir George Orwell, les applications peuvent depuis des lunes enregistrer le comportement de l'utilisateur. Il est donc possible pour l'application de ressortir les habitudes de déplacement des utilisateurs. À partir de ces informations, l'application pourrait identifier toutes les personnes prenant le trajet modifié et leur envoyer un message indiquant un trajet alternatif avant de se retrouver dans l'embarras ou être en retard à leur destination.

Bon.

Oui, à travers tout cela, il y a un peu d'embûches: être capable de discerner sans faille les gens prenant réellement le trajet et pas ceux consultant seulement l'horaire. Mais, à ce point, c'est seulement une question de quantité et d'analyse de données. Des mathématiques, des croisements de données, de la logique. Beaucoup de logique.

En somme, la table est mise pour réaliser de grandes choses à l'aide de grandes quantités de données pourvu que celle-ci soient de qualité (ça, c'est un autre sujet). Si nous voulons empêcher un embouteillage sur le boulevard Charest en intervenant avant qu'il n'arrive à l'aide de signes précurseurs, c'est présentement technologiquement possible. Il suffit d'avoir l'équipement, les données et de les traiter.

Prédire l'avenir? Pourquoi ne pas rêver. « The Truth is Out There » comme ils disaient. Je dirais plutôt « The Future is Out There »...

Big Data: des données pour prédire l'avenir

Liens pertinents: