espanolLa evaluacion del acuerdo entre observadores con muestras pequenas es analizada desde la perspectiva de la distribucion discreta de las matrices de acuerdo-desacuerdo 2x2, vistas como tablas de contingencia. Se realiza un estudio por simulacion para comparar el coeficiente κ de Cohen, un estimador de acuerdo de maxima verosimilitud y un estimador robusto de κ (Jacknife). Tanto los estimadores puntuales como los intervalos de confianza son evaluados. Mientras los estimadores puntuales son muy similares para los distintos metodos, los intervalos de confianza arrojaron resultados poco satisfactorios para los tres estimadores de κ, siendo la opcion robusta la menos afectada por el tamano de la muestra. Los resultados muestran las limitaciones de un enfoque guiado por la inferencia para la evaluacion del acuerdo entre observadores. Se propone una estrategia razonada para mejorar el valor informativo de Kappa con matrices de acuerdodesacuerdo 2x2 y muestras pequenas. EnglishEvaluation of inter-rater agreement with small samples is analyzed from the perspective of the discrete distribution of 2x2 confusion matrices, as contingency tables. A simulation study is carried out to compare Cohen’s K, a maximum likelihood estimate of agreement, and a robust (Jacknife) estimator of K. Both point estimates and confidence intervals are evaluated. While point estimates are very similar across methods, confidence intervals yield unsatisfactory results for the three estimators of K, the robust option being the less affected by the small sample size. The results show the limitations of an inference-driven approach to inter-rater agreement evaluation. A reasoned strategy is proposed to improve the informative value of Kappa with small samples and 2x2 confusion matrices.