Choix de modèles quand la vraisemblance est incalculable - INRIA - Institut National de Recherche en Informatique et en Automatique Accéder directement au contenu
Communication Dans Un Congrès Année : 2015

Choix de modèles quand la vraisemblance est incalculable

Résumé

Penalised likelihood criteria such as BIC are popular methods for model selection and require to compute the maximised likelihood. Unfortunately, this maximised likelihood can be untractable, as it is the case for the latent block model (LBM). LBM is a mixture model for co-clustering, allowing to perform the simultaneous clustering of rows and columns of large data matrices. Due to the complex dependence between the row and column class membership variables conditionally to the observations, approximations are needed to perform the estimation step of the EM algorithm, leading to a lower bound of the maximised likelihood. For the same reason, the usual asymptotic approximation used to derive BIC is itself questionable. On the other hand, the integrated completed likelihood criterion (ICL) is exactly computed for LBM, but requires to investigate the influence of hyperparameters. Links between both criteria are analyzed and comparison with Bayesian inference is discussed.
Les critères pénalisés comme le critère BIC sont des méthodes fréquemment utilisées pour la sélection de modèles et qui nécessitent le calcul de la vraisemblance. Malheureusement, il peut arriver que la vraisemblance ne soit pas numériquement calculable, comme c'est le cas par exemple pour le modèle des blocs latents (LBM). LBM est un modèle de mélange pour la classification croisée (co-clustering), permettant la classification non supervisée simultanée des lignes et colonnes de grandes matrices de données. A cause de la structure de dépendance complexe entre les variables d'appartenance à une classe en ligne et en colonne conditionnellement aux observations, il est nécessaire d' opérer des approximations pour calculer l'étape d'estimation de l'algorithme EM, conduisant ainsi à un minorant de la vraisemblance maximisée. Pour la même raison, l'approximation asymptotique usuelle pour définir le critère BIC doit être remise en question. D'un autre côté, le critère de vraisemblance complète intégrée (ICL) peut être calculé de façon ex-acte pour LBM, mais nécessite d'étudier l'influence d'hyper-paramètres. Les liens entre les deux critères sont analysés et une comparaison avec l' inférence bayésienne est discutée.
JDS15-Keribin-resume.pdf (23.08 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-01260761 , version 1 (22-01-2016)

Identifiants

  • HAL Id : hal-01260761 , version 1

Citer

Christine Keribin. Choix de modèles quand la vraisemblance est incalculable. 47èmes Journées de Statistique de la SFdS, Jun 2015, Lille, France. ⟨hal-01260761⟩
218 Consultations
61 Téléchargements

Partager

Gmail Facebook X LinkedIn More