Détail d'une fiche

ZENITH (SR0522AR)

Gestion de données scientifiques

Statut: En cours de fermeture

Responsable : Florent Masseglia

Mots-clés de "A - Thèmes de recherche en Sciences du numérique - 2023" : A1.1. Architectures , A3.1. Données , A3.3. Analyse de données et de connaissances , A3.4.4. Optimisation pour l'apprentissage , A5.4.3. Recherche dans des bases d'images et de vidéos , A5.7. Modélisation et traitement audio , A6.2.6. Optimisation , A9.2. Apprentissage , A9.3. Analyse de signaux (vision, parole, etc.)

Mots-clés de "B - Autres sciences et domaines d'application - 2023" : B1.1.11. Biologie végétale , B2.6. Imagerie biologique et médicale , B3.3. Géosciences , B3.5. Agronomie , B3.6. Ecologie , B4. Energie , B6. Informatique et télécommunications , B6.5. Systèmes d'information

Domaine : Perception, Cognition, Interaction
Thème : Représentation et traitement des données et des connaissances

Période : 01/01/2012 -> 31/12/2024
Dates d'évaluation : 11/10/2011 , 07/10/2015 , 03/10/2019 ,

Etablissement(s) de rattachement : CNRS, U. MONTPELLIER
Laboratoire(s) partenaire(s) : LIRMM (UMR5506)

CRI : Centre Inria d'Université Côte d'Azur
Localisation : Antenne Inria Montpellier - Université Montpellier
Code structure Inria : 041127-1

Numéro RNSR : 201121208J
N° de structure Inria: SR0522AR

Présentation

La science à données intensives tels que l'agronomie, l'astronomie, la biologie et l'environnement doit faire face à des quantités écrasantes de données expérimentales produites par l'observation empirique et la simulation. Zenith s’attaque aux défis posés par la gestion, la recherche et l’analyse de ces données scientifiques. Ces défis relèvent du big data et peuvent se résumer ainsi: (1) très grande échelle (big data, big analytics); (2) données en continu (produites par des capteurs, des appareils mobiles, etc.) ; (3) hétérogénéité et complexité des données (différences sémantiques, données multi-échelles, etc.).

Notre objectif est d’apporter des solutions innovantes, en démontrant des avantages en termes de scalabilité, fonctionnalité, facilité d’usage et performance, dans des environnements distribués et parallèles (P2P, grid, cloud). Nous produisons des résultats fondamentaux (structures de données, algorithmes, etc.) et des logiciels.

Nous concevons et validons nos solutions en travaillant en étroite collaboration avec nos partenaires scientifiques tels que l'INRA et l'IRD en France, ou FIOCRUZ au Brésil. Pour valider davantage nos solutions et étendre la portée de nos résultats, nous favorisons également des collaborations industrielles, dès lors que les applications présentent des défis similaires.

Axes de recherche

Notre approche capitalise sur les principes de la gestion de données distribuées et parallèles. En particulier, nous exploitons: des langages de haut niveau comme base pour l'indépendance des données et l'optimisation automatique; la sémantique des données pour améliorer la recherche d'information et automatiser l'intégration des données; des langages déclaratifs (algèbre, calcul) pour manipuler des données et des flux de données; et des environnements hautement distribués parallèles tels que P2P, cluster ou cloud pour passer à l’échelle du big data.

Pour refléter notre approche, nous organisons notre programme de recherche en cinq thèmes complémentaires :

1. Gestion des données distribuées, y compris l'intégration des données et les polystores ;
2. Gestion du big data ;
3. Les workflows scientifiques, dans le contexte des clusters et du cloud ;
4. L'analyse de données, y compris la fouille de données et les statistiques ;
5. Le machine learning pour le traitement et la recherche de données hautement dimensionnelles.