Reconocimiento de señales dinámicas del Lenguaje Mexicano de Señas mediante redes LSTM para contextos de emergencia
Contenido principal del artículo
Resumen
La integración de disciplinas como las matemáticas, los métodos numéricos, la computación y el modelado matemático ha impulsado el desarrollo de herramientas tecnológicas capaces de identificar patrones y predecir fenómenos con alta precisión. Entre estas herramientas, la inteligencia artificial ha generado soluciones innovadoras en diversos sectores industriales y de ingeniería; sin embargo, su aplicación, orientada al fortalecimiento de poblaciones vulnerables, aún es limitada.
En este contexto, se explora el uso de inteligencia artificial como herramienta de apoyo para la detección temprana de situaciones de riesgo que afectan a la comunidad sorda usuaria del Lenguaje Mexicano de Señas. El objetivo es desarrollar y evaluar un modelo basado en redes neuronales recurrentes tipo LSTM capaz de reconocer, en tiempo real, señas del Lenguaje Mexicano de Señas asociadas a contextos de emergencia. La metodología propuesta se basa en una red neuronal recurrente entrenada para el reconocimiento en tiempo real de un conjunto de señas asociadas a contextos de emergencia. El sistema procesa secuencias de video cuadro por cuadro, identifica patrones temporales en los movimientos de manos, rostro y cuerpo, así como estima la probabilidad de ocurrencia de palabras vinculadas a situaciones de riesgo. El modelo alcanzó una precisión de hasta el 100% en la identificación de señas críticas en los conjuntos de entrenamiento y validación. No obstante, durante las pruebas, se identificaron errores en el reconocimiento de aquellas con alta similitud gestual. A pesar de las limitaciones actuales del sistema, como la latencia en la inferencia y el tamaño reducido del conjunto de datos, los resultados evidencian el potencial de este enfoque como una herramienta de apoyo para la identificación temprana de situaciones de riesgo. Asimismo, se identifican oportunidades de mejora futura orientadas a optimizar la velocidad de procesamiento, ampliar el vocabulario reconocido y avanzar hacia una implementación operativa en entornos reales.
Descargas
Detalles del artículo

Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial-SinDerivadas 4.0.
Este trabajo tiene la licencia CC BY-NC-ND 4.0
Citas
Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press.
González-Rodríguez, J.-R., Córdova-Esparza, D.-M., Terven, J., & Romero-González, J.-A. (2024). Towards a bidirectional Mexican Sign Language–Spanish translation system: A deep learning approach. Technologies, 12(1). https://doi.org/10.3390/technologies12010007
Graves, A., Mohamed, A.-R., & Hinton, G. (2013, 26-31 de mayo). Speech recognition with deep recurrent neural networks [conferencia]. 2013 IEEE International Conference on Acoustics, Speech and Signal Processing, Vancouver, Canadá. https://doi.org/10.1109/ICASSP.2013.6638947
Hochreiter, S., & Schmidhuber, J. (1997). Long short-term memory. Neural Computation, 9(8), 1735-1780. https://doi.org/10.1162/neco.1997.9.8.1735
Huang, J., Zhou, W., Li, H., & Li, W. (2015, 29 de junio-03 de julio). Sign language recognition using 3D convolutional neural networks [conferencia]. 2015 IEEE International Conference on Multimedia and Expo (ICME), Turín, Italia. https://doi.org/10.1109/ICME.2015.7177428
Instituto Nacional de Estadística y Geografía [INEGI]. (2021). Censo de Población y Vivienda 2020: Resultados sobre discapacidad.
https://www.inegi.org.mx/programas/ccpv/2020/
Instituto Nacional de Estadística y Geografía [INEGI]. (2023). Encuesta Nacional de Victimización y Percepción sobre Seguridad Pública (ENVIPE) 2023. https://www.inegi.org.mx/programas/envipe/2023/
Koller, O., Camgoz, N. C., Ney, H., & Bowden, R. (2020). Weakly supervised learning with multi-stream CNN–LSTM–HMMs to discover sequential parallelism in sign language videos. IEEE Transactions on Pattern Analysis and Machine Intelligence, 42(9), 2306–2320. https://doi.org/10.1109/TPAMI.2019.2911077
Martínez-Seis, B., Pichardo-Lagunas, O., Rodríguez-Aguilar, E. J., & Saucedo-Díaz, E.-R. (2019). Identification of static and dynamic signs of the Mexican Sign Language alphabet for smartphones using deep learning and image processing. Research in Computing Science, 148(11), 199–211. https://doi.org/10.13053/rcs-148-11-16
Mejía-Pérez, K., Córdova-Esparza, D.-M., Terven, J., Herrera-Navarro, A.-M., García-Ramírez, T., & Ramírez-Pedraza, A. (2022). Automatic recognition of Mexican Sign Language using a depth camera and recurrent neural networks. Applied Sciences, 12(11). https://doi.org/10.3390/app12115523
Morfín-Chávez, R. F., Gortarez-Pelayo, J. J., & Lopez-Nava, I. H. (2023). Fingerspelling recognition in Mexican Sign Language (LSM) using machine learning [artículo de conferencia]. En H. Calvo, L. Martínez-Villaseñor, & H. Ponce (Eds.), Advances in Computational Intelligence: 22nd Mexican International Conference on Artificial Intelligence, MICAI 2023 (pp. 110–120). Springer Nature Switzerland. https://doi.org/10.1007/978-3-031-47765-2_9
Ravikiran, V. (2025). Real-time sign language recognition and translation using MediaPipe and LSTM-based deep learning. International Journal of Computer Applications, 187(25), 10–14. https://doi.org/10.5120/ijca2025925415
Rodriguez, M., Oubram, O., Bassam, A., Lakouari, N., & Tariq, R. (2025). Mexican Sign Language Recognition: Dataset Creation and Performance. Evaluation Using MediaPipe and Machine Learning Techniques. Electronics 14(7). https://doi.org/10.3390/ELECTRONICS14071423
Sánchez-Vicinaiz, T. J., Camacho-Pérez, E., Castillo-Atoche, A. A., Cruz-Fernandez, M., García-Martínez, J. R., & Rodríguez-Reséndiz, J. (2024). MediaPipe frame and convolutional neural networks-based fingerspelling detection in Mexican Sign Language. Technologies, 12(8). https://doi.org/10.3390/technologies12080124
Samaan, G. H., Wadie, A. R., Attia, A. K., Asaad, A. M., Kamel, A. E., Slim, S. O., Abdallah, M. S., & Cho, Y.-I. (2022). MediaPipe's landmarks with RNN for dynamic sign language recognition. Electronics, 11(19). https://doi.org/10.3390/electronics11193228
Sheth, P., Rajora, S., & Makwana, Y. (2023). Sign language recognition application using LSTM and GRU (RNN). ResearchGate. https://doi.org/10.13140/RG.2.2.18635.87846
Solís, F., Martínez, D., & Espinoza, O. (2016). Automatic Mexican Sign Language recognition using normalized moments and artificial neural networks. Engineering, 8(10), 733-740. https://doi.org/10.4236/ENG.2016.810066
Zhang, F., Bazarevsky, V., Vakunov, A., Tkachenka, A., Sung, G., Chang, C.-L., & Grundmann, M. (2020). MediaPipe Hands: On-device real-time hand tracking. arXiv. https://doi.org/10.48550/arXiv.2006.10214