D’une manire gnrale, ce livre doit par son manque de structure. Les sections se succdent sans ncessairement avoir de lien entre elles, en prsentant parfois approximativement des techniques issues des statistiques et de l’apprentissage automatique sans vraiment de recul. Par exemple, on aura droit une prsentation des data frames de R, trs rapidement suivie de la notion d’arbre de dcision sans que les deux aient l’air lis d’une quelconque manire ou encore RCommander juste aprs une introduction la notion de variable alatoire. Cette construction dstructure pourrait tre avantageuse pour un public plutt dbutant, sans bagage consquent en mathmatiques ou en programmation, qui aura ainsi la possibilit de tester directement la syntaxe de R entre le chargement d’un jeu de donnes et son exploitation par apprentissage automatique, sans s’allourdir de considrations autres que pratiques. Nanmoins, une structure assume aiderait certains comprendre et surtout utiliser l’ouvrage comme rfrence.
Cet ouvrage contient une introduction la programmation en R de manire intuitive, renforce par quantit d’exemples : elle devrait donner les bases ceux qui n’ont que trs peu touch la programmation, des bases suffisantes pour crire leur propre code proprement mme en utilisant l’approche oriente objet. Cependant, par la suite, l’auteur ne convainc pas rellement que R est l’outil le plus appropri pour ce cas d’utilisation, notamment cause du nombre d’avertissements grains tout au long de l’ouvrage, autant d’indicateurs que le langage est pigeux. Un bon nombre d’outils est prsent, mais trs rarement approfondi : par exemple, dplyr est trs rapidement prsent, mais tout aussi vite oubli, sans montrer rellement ses apports par rapport aux fonctionnalits de base de R.
Le premier chapitre du livre est nanmoins trs intressant, notamment pour son bestiaire de la science des donnes : tous les concepts de base y sont reprsents, dont une srie graphiquement. Les explications sont succinctes, parfois approximatives, mais facilitent la comprhension du domaine dans son ensemble, chaque lment menant au suivant.
L’autre chapitre qui fait sortir ce livre de la moyenne concerne le suivi d’un projet de dveloppement dans le domaine de la science des donnes. Il devrait aider le lecteur s’organiser en situation relle, notamment en pointant les diffrences par rapport aux cycles de dveloppement logiciel.
Tout au long de l’ouvrage, l’auteur ne suit qu’une seule approche : comprendre le jeu de donnes ( l’aide de graphiques, principalement) aide le modliser, c’est–dire choisir et appliquer un algorithme d’apprentissage automatique. L’approche inverse, qui consiste exploiter le rsultat d’algorithmes d’apprentissage pour analyser les donnes, n’est relgue qu’ quelques notes parses ( peine parle-t-on de l’importance des variables dtermine par une fort alatoire). On a l l’impression que l’auteur a une bonne exprience du domaine, avec un biais trs fort envers les solutions trs pragmatiques, mais nettement moins envers la recherche, toujours florissante dans le domaine un comble, quand l’un des objectifs annoncs du livre est de mener un niveau de comprhension suffisant du domaine pour aborder la littrature scientifique de pointe. Les notions thoriques ne sont toutefois pas oublies, avec des prsentations assez dtailles en ce qui concerne les probabilits et variables alatoires (jusqu’ prciser la dfinition d’une tribu !) ou encore l’algbre linaire sans que ces rappels soient rellement mis en rapport avec le reste de l’ouvrage.
Certains sujets sont abords de manire extrmement superficielle (comme le traitement d’images ou encore la logique floue), les rendant strictement inutiles. D’autres le sont, mais sans que ce soit justifi (le niveau de dtail des variables alatoires ou encore l’optimisation par essaims) : ces outils ne sont pas mis en lien avec le reste des thmes abords.
En rsum, ce livre pourrait tre utile pour des dbutants dans le domaine, qui n’ont pas une grande exprience dans le domaine ou un bagage mathmatique pouss. Ces gens pourront profiter du livre, en omettant les parties trop mathmatiques abstraites. Cela ne signifie pas que, pour ce public, tous les objectifs annoncs sont atteints. Difficile d’tre pleinement oprationnel aprs uniquement la lecture de ce livre, de s’autoformer , mme en approfondissant chacun des exemples. Par contre, le niveau d’exposition devrait tre suffisant pour dialoguer en profondeur avec des personnes dont la science des donnes est le domaine de prdilection.