Analyse de ma bibliothèque musicale en dataviz – Part 1

Cela faisait quelques temps que je voulais analyser ma bibliothèque musicale ainsi que mes écoutes.

La dernière publication de Colin Fay sur son blog (Data & Vinyles – Exporation d’une bibliothèque Discogs avec R) et quelques échanges avec lui sur Twitter m’ont fait sauter le pas.

Deux sources principales à regarder : bibliothèque musicale sur l’ordinateur (peu d’écoute mais quand même) et sur mon baladeur (plus d’utilisation au quotidien).

La première difficulté rencontrée a été : comment accéder à mes données?

J’ai commencé par regarder du côté de l’API d’Itunes mais elle concerne surtout les achats via l’Itunes Store. Ne pratiquant pas et n’étant pas très sensible à ce modèle de consommation musicale, j’ai abandonné cette idée. Je ne télécharge pas depuis l’outil mais j’y importe mes albums CD achetés et la musique que je récupère en ligne.

Le temps a passé et une solution toute simple a émergé des échanges avec Colin Fay (que je remercie) : un simple Tout Sélectionner et copier-coller de la bibliothèque musicale a suffit pour tout récupérer! (Un peu honte de ne pas avoir essayé).

Avant de passer par R pour l’analyse, un petit coup de Refine avec OpenRefine pour nettoyer la base et assurer un peu de cohérence aux résultats.

Analyse de l’ensemble de ma bibliothèque musicale

Au total, ma bibliothèque musicale contient 1154 albums et 1264 artistes (quelques compils font grimper le nombre d’artistes).

BarChartIDeef7afc0b57

Assez « satisfait » de ce premier résultat, reflet de la diversité des styles que je peux (ou ai pu) écouter : de la oi! de Los Fastidios, en passant par le hip hop de Swift Guad pour atterrir dans les musiques planantes (Hawkwind , Earth) et lourdes de Sunn O))).

N’ayant pas pour habitude de télécharger des discographies entières, Earth et Sunn O))) font office d’exceptions : discographie prolifique et recherche personnelle d’un certain style dans leur production.
Pour Sunn O))), mon préféré est sans doute l’album Terrestrials avec Ulver.

Grand fan des Cramps, avec quelques albums préférés: « A Date with Elvis » et « Psychedelic Jungle« .

Pour ce qui est de Johnny Cash, multiplier les versions d’une même chanson pour en tirer les meilleures!

ColumnChartIDeefab7dc95

Résultat plutôt inattendu avec la répartition des albums par année… Ce pic dans les années 2000 m’a assez surpris.

J’essaierais d’aller plus loin dès que possible.

 

Retour sur le One Year FrenchTech Bordeaux à travers Twitter

Lundi 19 octobre, avait lieu à la CCI de Bordeaux, une soirée pour fêter l’anniversaire de la labellisation French Tech de la métropole bordelaise.
La soirée a été l’occasion de regrouper les entrepreneurs du numérique et les Institutions.

Dans un pur exercice de style, l’équipe Burdidata a décidé de revenir sur l’événement à travers Twitter. Grâce au logiciel R, plus de 1700 tweets contenant le hashtag #1yftbx ont été extraits. Le corpus récupéré couvre la période du 13 octobre au 22 octobre 2015.

Une contribution très forte pour la soirée du 19 octobre, point d’orgue de #1yftbx

Comme le montre la dynamique des tweets et retweets, la période la plus prolifique fut lors de la prise de parole des différents acteurs de l’écosystème, entre 19h30 et 20h.

LineChartID8a157e2b3b9

La soirée a été donc particulièrement animée sur Twitter, ce qui a permis au hashtag #1yftbx d’apparaître parmi les Topics Trends français.

Plus de 600 contributeurs différents pour #1yftbx

De nombreux comptes d’acteurs de l’écosystème ont été très en verve lors de la soirée : on retrouve parmi le top des comptes les plus actifs (comptes ayant tweeté plus de 15 fois), plusieurs habitués des soirées numériques bordelaises  à commencer par les Community Manager et les parties prenantes de la FrenchTech Bordeaux telles que : Agnès Grangé, animatrice de la soirée et actrice majeure de la FrenchTech Bordeaux, le compte de la FrenchTech Bordeaux et celui du délégué Thomas Baudin, la CCI de Bordeaux

BarChartID4ee9c23b91

Un grand nombre de retweets : plus de 1200 ! Egalement plus de 1000 tweets en favoris.

Les réactions des participants ont été nombreuses. Le nombre très important de retweets montre également l’importance accordée à un certains nombres de comptes prescripteurs. Logiquement, le compte de la FrenchTech Bordeaux a été massivement retweeté avec plus de 320 RT au total durant toute la période. On retrouve également les comptes les plus actifs de la soirée.

BarChartID4ee7f8932a8

Le tweet le plus retweeté a été celui de FrenchTech Bordeaux, datant du 2 octobre, qui annonçait la soirée anniversaire, avec 130 retweets :

Tweet FrenchTechBx

A noter que le top5 des retweet avec le hashtag #1yftbx contient uniquement des tweets du compte de la FrenchTech Bordeaux. Ces 5 tweets comptabilisent 213 retweets en tout.

Parmi ce top retweet, le premier d’un compte personnel est le tweet de Julien Parrou, fondateur et CEO de ConcoursMania. Ce tweet ayant été relayé 18 fois.

Les résultats pour les favoris sont similaires aux retweets, avec parmi le top 5, 3 tweets du compte FrenchTech Bordeaux, 1 de Julien Parrou et 1 du compte Bxeco.

Soirée FrenchTech Anniversaire/ Crédit: Agence Appa

La photo souvenir de la soirée FrenchTech One Year

 

 

Ce premier article d’analyse a été l’occasion d’exprimer l’envie qui est celle de l’équipe Burdidata : s’exercer à l’analyse et à la visualisation de données basées sur des sujets, sources ou thématiques qui attisent son intérêt.

De plus, notre souhait est de mettre en place d’autres indicateurs, à la recherche d’éléments de plus en plus pertinents et différenciant.

Why data quality matters—now more than ever

Not long ago, obtaining data for a GIS-based project was an arduous task. Because great time and effort was involved with either creating your own data or obtaining data that someone else created, you had to think carefully about the quality of the data that would go into your project. While it can still be cumbersome to obtain data at specific scales for specific areas, cloud-based data services, crowdsourced maps and databases and real-time streaming make it easy for anyone to obtain vast amounts of data in a short amount of time. In an environment where so much data is available, is data quality still of concern? I believe that yes, data quality does matter. In fact, because it is so easy to obtain data nowadays, and with the advent of crowdsourcing and cloud-based GIS, I submit that data quality considerations actually matter now more than ever. Consider the following three examples that focus on criticizing, analyzing and scaling your data.

Tags:

Le Big Data en un claquement de doigt !

« On entend beaucoup de choses sur les différentes méthodes de rentabilisation des données. En revanche, il est primordial de faire le bon choix d’infrastructure pour héberger et gérer le Big Data au cours des dix prochaines années.
Cependant, dix ans, c’est très long. En matière de Big Data, le contexte est encore mal défini, sans compter qu’il ne cesse d’évoluer. Il n’est pas surprenant que l’on peine à savoir comment procéder pour faire de cette innovation technologique un outil exploitable.
Le Big Data peut servir à établir des corrélations ponctuelles. Toutefois, comme l’indique Tim Hartford, correspondant du Financial Times à qui l’on doit l’expression de « pot d’échappement numérique », il n’offre aucune théorie à tester, et il peut être facile de confondre corrélation et cause. »

Tags:

15 Most Read Data Science Articles in 2015. So far … | Data Science Weekly Blog

« We’ve compiled the latest set of « most read » articles from the Data Science Weekly Newsletter. This is what is most popular thus far in 2015 – a mix of interesting applications of data science, advice on how best to get into the field, and unique explanations of some of the core concepts / techniques… »

Tags:

Don’t Just Get Your Data On; Get Your Data Right at Splunk .conf2015!

« Data: We’re swimming in it.

There is so much data on the Web, inside our organizations, with our partners … security and threat teams must sort through this data to find emerging threats to their organizations. This is hard enough given the plethora of data available, but even more complicated without any context to the information that makes up the intelligence that informs a threat program. »

Tags:

Don’t Just Get Your Data On; Get Your Data Right at Splunk .conf2015!

« Data: We’re swimming in it.

There is so much data on the Web, inside our organizations, with our partners … security and threat teams must sort through this data to find emerging threats to their organizations. This is hard enough given the plethora of data available, but even more complicated without any context to the information that makes up the intelligence that informs a threat program. »

Tags:

Big Data : mythes et réalités – Silicon

« Au-delà des algorithmes analytiques et prédictifs, on définit souvent le Big Data par les 3 ou 5 V : volume, variété, vitesse, véracité et valeur. Même s’ils fleurent bon le marketing, ces termes recèlent quelques enseignements précieux.

Tout a commencé avec les 3 V : Volume, variété, vitesse. Trois mots censés résumer les problématiques posées par la gestion de l’information et démontrer l’incapacité des outils d’analyse en place de traiter de tels volumes, aussi variés et à grande vitesse.

« 

Tags:

Big Data : mythes et réalités – Silicon

« Au-delà des algorithmes analytiques et prédictifs, on définit souvent le Big Data par les 3 ou 5 V : volume, variété, vitesse, véracité et valeur. Même s’ils fleurent bon le marketing, ces termes recèlent quelques enseignements précieux.

Tout a commencé avec les 3 V : Volume, variété, vitesse. Trois mots censés résumer les problématiques posées par la gestion de l’information et démontrer l’incapacité des outils d’analyse en place de traiter de tels volumes, aussi variés et à grande vitesse.

« 

Tags:

Comprehensive list of data science resources – Data Science Central

« We blended together the best of the best resources posted recently on DSC. It would be great to organize them by category, but for now they are organized by date. This is very useful too, since you are likely to have seen old entries already, and can focus on more recent stuff. Starred entries have interesting charts. « 

Tags:

Comprehensive list of data science resources – Data Science Central

« We blended together the best of the best resources posted recently on DSC. It would be great to organize them by category, but for now they are organized by date. This is very useful too, since you are likely to have seen old entries already, and can focus on more recent stuff. Starred entries have interesting charts. « 

Tags:

R beats Python! R beats Julia! Anyone else wanna challenge R? | Mad (Data) Scientist

« Before I left for China a few weeks ago, I said my next post would be on our Rth parallel R package. It’s not quite ready yet, so today I’ll post one of the topics I spoke on last night at the Berkeley R Language Beginners Study Group. Thanks to the group for inviting me, and thanks to Allan Miller for suggesting I address this topic. »

Tags: