Les 10 mythes les plus populaires sur Hadoop

 

Hadoop et Big Data sont pratiquement synonymes de nos jours. Il y a tellement d’informations sur Hadoop et le Big Data, mais alors que la machine à faire de la publicité pour le Big Data s’accélère, il y a beaucoup de confusion sur la place d’Hadoop dans le paysage global du Big Data. Jetons un coup d’œil à certains des mythes populaires sur Hadoop. 

 

Mythe n°1 : Hadoop est une base de données 

On parle souvent d’Hadoop comme s’il s’agissait d’une base de données, mais ce n’est pas le cas. Hadoop est principalement un système de fichiers distribué et ne contient pas de fonctionnalités de base de données comme l’optimisation des requêtes, l’indexation et l’accès aléatoire aux données. Cependant, Hadoop peut être utilisé pour construire un système de base de données. 

 

Mythe n°2 : Hadoop est un produit complet et unique 

Ce n’est pas le cas. C’est le plus grand mythe de tous ! Hadoop se compose de multiples produits open source comme HDFS (Hadoop Distributed File System), MapReduce, PIG, Hive, HBase, Ambari, Mahout, Flume et HCatalog. Fondamentalement, Hadoop est un écosystème – une famille de produits et de technologies open source supervisés par l’Apache Software Foundation (ASF). C’est une idée fausse courante associée à tout ce qui est open source. Ce n’est pas parce que vous êtes en mesure de réduire ou d’éliminer les coûts initiaux d’achat de logiciels que vous allez nécessairement économiser de l’argent. Bien qu’Hop soit open source, il y a beaucoup de coûts associés au déploiement d’Hop. 

 

Mythe n°4 : Hadoop nécessite un tas de programmeurs 

Cela dépend totalement de ce que l’organisation prévoit de faire. Si le plan est de construire une suite Big Data fantaisiste basée sur Hadoop, alors les programmeurs entrent en jeu. Sinon, la programmation ne devrait pas être un souci du tout, car la plupart des outils d’intégration de données ont des interfaces graphiques qui font abstraction de la complexité de la programmation MapReduce et des modèles pré-construits. 

 

Mythe n°5 : Hadoop ne peut gérer que l’analyse web

Lorsqu’il s’agit d’Hadoop, l’analyse web est mise en avant car la plupart des entreprises l’utilisent pour analyser les journaux web et autres données web. Mais son application n’est pas limitée à l’analyse Web. Hadoop est capable de traiter un plus large éventail de données et d’analyses attirant un plus large éventail d’organisations. 

 

Mythe n°6 : le Big Data peut se passer d’Hadoop 

Quand on dit Big Data, la chose qui vient immédiatement à l’esprit est Hadoop, malgré les autres options disponibles sur le marché. Par conséquent, lorsqu’on parle de Big Data, il y a forcément Hadoop. Les deux sont devenus synonymes. 

 

Mythe n°7 : Hive ressemble à SQL 

Les personnes qui connaissent SQL peuvent rapidement apprendre à coder manuellement Hive, mais cela ne résout pas les problèmes de compatibilité avec les outils basés sur SQL. Au fil du temps, on pense que les produits Hadoop supporteront le SQL standard et que les outils des fournisseurs basés sur SQL supporteront Hadoop. 

 

Mythe n°8 : Hadoop nécessite MapReduce 

Hadoop et MapReduce sont liés, mais ils ne sont pas mariés l’un à l’autre. En d’autres termes, ils ne sont pas mutuellement exclusifs l’un de l’autre. Il existe quelques variantes de MapReduce qui fonctionnent avec une variété de technologies de stockage, dont HDFS et certains SGBD relationnels. Certains utilisateurs choisissent de déployer HDFS avec Hive ou HBase, mais pas MapReduce. 

 

Mythe n°9 : MapReduce ne contrôle que l’analytique 

MapReduce gère la programmation parallèle, la tolérance aux pannes d’une grande variété de logiques codées et d’autres applications, que l’analytique. 

 

Mythe n°10 : Hadoop est trop risqué pour une utilisation en entreprise 

De nombreuses organisations craignent qu’Hadoop soit trop nouveau et non testé pour être adapté à l’entreprise. Rien ne pourrait être plus éloigné de la vérité. Aujourd’hui, Hadoop est utilisé par tout le monde, de Netflix à Twitter en passant par eBay, et les principaux fournisseurs, dont Microsoft, IBM et Oracle, vendent tous des outils Hadoop.