Jeux de données complets

Follow:

  • RSS
  • Cite
Submitted By
Craig Statchuk
Tags
Votes: 53

Status message

Sorry…This form is closed to new submissions.

La portée des jeux de données ouvertes peut être limitée. De nombreux jeux de données ne portent que sur un seul sujet. De nouveaux concepts comme les données volumineuses et la science des données permettent un volume élevé, la dispersion des données, un grand nombre de colonnes et des critères de corrélation plus variés.

La façon la plus simple de s’assurer que les données seront prêtes en vue d’une analyse de données volumineuses consiste à combiner tous les jeux de données dans un grand tableau. Le nettoyage et la normalisation des données NE sont PAS essentiels – en fait, cela peut même être nuisible. Il peut y avoir des entrées en double, des pseudonymes, des valeurs manquantes et plusieurs données qui ne respectent pas la première forme normale (1NF). L’avantage : les moteurs de traitement comme Hadoop et Spark peuvent corréler des données de manière quasi infinie. Il est souvent plus facile d’établir des corrélations quand toutes les données sont regroupées au même endroit.

Date modified: