El cáncer de pulmón es el cáncer más mortífero del mundo. Este hecho ha llevado a un mayor desarrollo de métodos médicos y computacionales para mejorar el diagnóstico precoz, con el objetivo de reducir su tasa de letalidad. Los radiólogos realizan el cribado y el diagnóstico del cáncer de pulmón mediante la localización y caracterización de patologías. Por lo tanto, existe una relación inherente entre los hallazgos clínicos visuales y la ubicación espacial en las imágenes. Sin embargo, en trabajos anteriores, esta relación espacial entre datos multimodales no se ha aprovechado. En este trabajo, proponemos una red multimodal con conocimiento espacial y atención al diagnóstico temprano del cáncer de pulmón (SAMA) para el diagnóstico temprano del cáncer de pulmón. Nuestro enfoque aprovecha la relación espacial entre la información visual y clínica, emulando el proceso de diagnóstico del especialista. Específicamente, proponemos un módulo de fusión multimodal compuesto por filtrado dinámico de características visuales con datos clínicos seguido de un mecanismo de atención de canal. Proporcionamos evidencia empírica del potencial de SAMA para integrar información clínica y visual espacialmente. Nuestro método supera en un 14% el método de vanguardia en el conjunto de datos de detección de cáncer LUng con biomarcadores multimodales.