Projet TAMIS (ANR)

Le projet TAMIS porte sur des questions de statistique en grandes dimensions :

    • l”inférence sous contrainte de parcimonie, LASSO, sélecteur de Dantzig et seuillage ;
    • l”interaction entre analyse harmonique et statistique ;
    • outils probabilistes pour les statistiques en grandes dimensions ;
    • le contrôle du taux de fausses découvertes dans les procédures de tests multiples ;
    • les problèmes de ranking et de scoring ;
    • les problèmes d”inférence soulevés par la post-génomique ;
    • les problèmes d”inférence soulevés par le contrôle des processus.

Le déluge des données en génomique mais aussi dans les applications industrielles, place les statisticiens devant une situation nouvelle. La théorie classique envisageait de petites collections de modèles de faible dimension et pariait sur un afflux de données suffisant pour justifier un recours aux résultats asymptotiques du calcul des probabilités. Les flots des données massifs sont de nature différente, la dimension des données est au mieux du même ordre de grandeur que la taille de l”échantillon. La possibilité de l”inférence statistique dans ces conditions repose sur un postulat de parcimonie. Elle doit s”appuyer sur des techniques algorithmiques et mathématiques ad hoc : les techniques dites de pénalisation l1 (Lasso, Dantzig, seuillages, …) en estimation, sur les techniques de contrôle du taux de fausses découvertes issues de la théorie des tests multiples, la construction de bases susceptibles de représenter de façon parcimonieuse des fonctions complexes, l”extension des techniques de classification aux problèmes de notation (ranking and scoring), la construction de résultats probabilistes nouveaux susceptibles de pallier la défaillance des théories asymptotiques.

L”inférence sous hypothèse de parcimonie suppose qu”il existe un dictionnaire dans lequel la fonction à estimer se décrit concisément. La construction de dictionnaires capables de bien représenter des classes de fonctions intéressantes (pour les applications) est un problème qui intéresse l”analyse harmonique et les statistiques. L”analyse multirésolutions (ondelettes et codage en sous-bandes) constitue la réponse à cette question. Des outils probabilistes ad hoc, les inégalités de concentration ont prouvé leur efficacité pour l”étude des problème de sélection de modèles, prototype des problème d”inférence en grandes dimensions

Début

Thèmes

  • Bickel, Ritov et Tsybakov (2009) ont établi que sous les hypothèses classiques (sur les dictionnaires) les procédures Dantzig (Candes et Tao, 2006) et Lasso (Tibshirani, 1996) possèdent des propriétés statistiques comparables dans le modèle de régression. Dalalyan et Tsybakov (2007, 2008, 2009) ont combiné les méthodes d”analyse PAC-Bayésiennes, pour proposer un algorithme stochastique d”agrégation qui exploite au mieux des hypothèses de parcimonie en régression.

  • Les ondelettes de secondes générations appelées needlets ont été développées à partir des travaux de Petrushev et al. Ces développements permettent de trâiter des problèmes inverses particulièrement ardus (problème de Wicksell, inversion de transformées de Radon). Le développement de needlets pours la sphère trouvent des applications passionnantes en astrophysique (Baldi et al. 2009a, 2009b, 2009c, Kerkyacharian et al. 2009).

  • En statistique classique, lorsque la densité à estimer se trouve dans un modèle de faible dimension, la différence entre les logarithmes du maximum de vraisemblance dans deux modèle surdimensionnés emboités converge en distribution vers une loi du chi-deux. Le phénomène de Wilks est à la fois au coeur de la sélection de variables classique et de l”heuristique d”Akaïke. La mise en évidence d”un phénomène de Wilks en grande dimension, hors du contexte de l”estimation de densité, est rendue possible par les techniques de concentration de la mesure (Boucheron et Massart, 2011)

  • Durant le déroulement du projet TAMIS, plusieurs concurrents de la procédure de contrôle du FDR de Benjamini, Y. and Hochberg, Y. (1995) ont été proposés (Benjamini et al. 2005, Finner et al. 2009, Blanchard et Roquain 2010)). Pierre Neuvial (2008) caractérise les performances (asymptotiques) de ces procédures. Cette étude permet d”interpréter les procédures dites adaptatives en une étape comme des points fixes des procédures de Storey et de Benjamini et al.

  • Au delà des problèmes de classification, les questions de notation (« ranking and scoring ») occupent désormais une place centrale en théorie de l”apprentissage. Clémençon et Vayatis ont approfondi l”étude du ranking biparti (Clémençon, Lugosi et Vayatis, 2008), caractérisé le problème du ranking des meilleurs, proposé une technique d”estimation de la courbe ROC d”une fonction de scoring à partir d”un bootstrap lissé, et proposé un algorithme de construction de fonction de notation optimal (Clémençon et Vayatis, 2007, 2008a, 2008b, 2009).

  • TAMIS (ANR-06-BLAN-0194 CSD 5) est un projet de recherche en Mathématiques appliquées. Centré sur un laboratoire de Mathématiques, ce projet implique deux instituts de recherche tournés vers les sciences de la vie : l”Institut Curie et l”INRA, et une entreprise INTERCIM (ex PERTINENCE).