Grid UNAM, la experiencia en su implementación
Contenido principal del artículo
Resumen
Grid UNAM surgió como un proyecto coordinado por la Dirección General de Cómputo y de Tecnologías de Información y Comunicación, para optimizar y consolidar el poder computacional distribuido en diversas entidades académicas de la Universidad Nacional Autónoma de México. La metodología propuesta inició con la construcción de un prototipo en un entorno virtual, que transitó por un proceso de pruebas, evaluación y selección de herramientas y tecnologías, antes de lograr el diseño y configuración base que se migró a los clusters de producción. Durante esta fase, el proyecto enfrentó y resolvió desafíos técnicos significativos, como la interoperabilidad entre sistemas heterogéneos, la gestión eficiente de los recursos compartidos y la implementación de medidas de seguridad robustas. Paralelamente, se desarrolló la normatividad necesaria para lograr acuerdos y convenir los lineamientos y las políticas para usar y compartir una infraestructura que involucrara diferentes capacidades y formas de trabajo, tanto humanas como computacionales. El resultado fue la creación de una infraestructura de cómputo distribuida en la Dirección General de Cómputo y de Tecnologías de Información y Comunicación, en los institutos de Astronomía (Ciudad Universitaria, y Ensenada), Ciencias Nucleares y Ciencias de la Atmósfera y Cambio Climático. Esta infraestructura permite compartir el poder de cómputo y de almacenamiento de clusters de alto rendimiento a través de la integración de diversas herramientas, como HTCondor-CE para la orquestación y compartición de recursos computacionales, SLURM para la gestión del sistema de colas, así como un sistema de autenticación basado en OpenID y SciTokens integrado con INDIGO.
Descargas
Detalles del artículo
Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial-SinDerivadas 4.0.
Este trabajo tiene la licencia CC BY-NC-ND 4.0
Citas
Acervo histórico del cómputo en la UNAM (2009). 50 años del cómputo en México Cap. 9 En la frontera de todos los laberintos Supercómputo. Recuperado el 07 de agosto de 2024 de https://www.historiadelcomputo.unam.mx/wp-content/uploads/2023/11/TEMA-9-SUPER.pdf
Ania, I. (2010), Coordinación General de Planeación y Simplificación de la Gestión Institucional, Memoria UNAM 2010: Dirección General de Cómputo y de Tecnologías de Información y Comunicación (6). Recuperado 07 de agosto de 2024 de https://www.planeacion.unam.mx/Memoria/2010/PDF/12.4-DGTIC.pdf
Apptainer (s.f.) Apptainer User Guide. Introduction to Apptainer. Recuperado 23 de agosto de 2023 de
https://apptainer.org/docs/user/latest/introduction.html#why-use-apptainer
Bockelman, B., Livny, M., Lin, B., & Prelz, F. (2021). Principles, technologies, and time: The translational journey of the HTCondor-CE. Journal of Computational Science, 52(101213), 101213. https://doi.org/10.1016/j.jocs.2020.101213
Comisión Técnica de Grid UNAM (2023). Glosario. Recuperado 7 de octubre de 2024
https://grid.unam.mx/index.php/glosario/
Comisión Técnica de Grid UNAM (2023). Portal Informativo de la Grid UNAM (2023). Recuperado 23 de agosto de 2023 de https://grid.unam.mx
Comisión Técnica de Grid UNAM (2023). Lineamientos de conformación y uso de la Grid UNAM (2023). Recuperado 23 de agosto de 2023 de https://grid.unam.mx/wp-content/uploads/2023/07/lineamientos2023.pdf
Comisión Técnica de Grid UNAM (2023). Políticas de uso de servicio de la Grid UNAM. Recuperado el 23 de agosto de 2023 de https://grid.unam.mx/wp-content/uploads/2023/08/Politicas_grid.pdf
DGTIC (2023). Grid UNAM, red de cómputo de alto rendimiento. Gaceta UNAM Ciudad Universitaria 9 de noviembre de 2023. (5429), pp. 9. https://www.gaceta.unam.mx/wp-content/uploads/2023/11/231109.pdf
Durner, D., Leis, V., Neumann, T. (2023). Exploiting Cloud Object Storage for High-Performance Analytics. Very Large Data Bases Conference VLDB. Recuperado de https://www.vldb.org› vol16› p2769-durner.pdf
Flores, L. (2024). Contabilidad de recursos en sistemas de cómputo de alto rendimiento en la Grid UNAM. Cuadernos Técnicos Universitarios De La DGTIC, 2(1). https://doi.org/10.22201/dgtic.ctud.2024.2.1.31 (Original work published 13 de febrero de 2024)
Graue, E. (2020). Plan de desarrollo institucional 2019-2023. Universidad Nacional Autónoma de México. Recuperado 08 de agosto de 2024 desde https://www.planeacion.unam.mx/Planeacion/Apoyo/PDI_2019-2023.pdf
Grid UNAM. (s.f.). Universidad Nacional Autónoma de México. Maqueta de prueba de una grid de cálculo masivo GridUNAM. Recuperado agosto 23, 2023 desde https://docs.google.com/document/d/1-5H3pfYk2IGlfzmGObTd51TmweD4rAZW/edit#
Humayun, M., Niazi, M., Jhanjhi, N. Z., Alshayeb, M., & Mahmood, S. (2020). Cyber security threats and vulnerabilities: A systematic mapping study. Arabian Journal for Science and Engineering, 45(4), 3171–3189. https://doi.org/10.1007/s13369-019-04319-2
ICARUS (s.f.). Universidad Nacional Autónoma de México. Iniciativa de Cómputo de Alto Rendimiento y uso de Supercómputo. Recuperado 23 de agosto de 2023 de https://www.icarus.unam.mx
INDIGO IAM. (s.f.). INDIGO IAM Documentation. Recuperado 23 de agosto de 2023 de https://indigo-iam.github.io/v/v1.8.3/docs/overview/
Lackschewitz, N. M., Krey, S., Nolte, H., Christgau, S., Oeste, S., & Kunkel, J. (2022). Performance Evaluation of Object Storages (NHR2022). Gwdg.de. Recuperado el 23 de agosto de 2024, de https://gwdg.de/pdf/Performance_Evaluation_of_Object_Storages_NHR2022_.pdf
OpenID foundation. (2023). Discover OpenID and OpenID connect . Recuperado el 8 de octubre desde https://openid.net/developers/discover-openid-and-openid-connect/
Open Science Grid Site Documentation (s.f.). HTCondor-CE Overview. Recuperado el 23 de agosto de 2023 desde https://osg-htc.org/docs/compute-element/htcondor-ce-overview/
Scitokens Organization (s.f.). Federated Authorization for Distributed Scientific Computing. Recuperado 23 de agosto de 2023 de https://scitokens.org/
SchedMd (s.f.). SLURM Workload Manager Documentation. Recuperado 23 de agosto de 2023 de https://slurm.schedmd.com/
Soporte y atención a usuarios (s.f.). Universidad Nacional Autónoma de México. Para operadores. Manejo de tokens. Recuperado agosto 23, 2023 desde https://docs.grid.unam.mx/operadores/manejo-tokens/
SSL.com. (s.f.). ¿Qué es un certificado X.509?. Consultado agosto 23, 2023 desde
https://www.ssl.com/es/preguntas-frecuentes/%C2%BFQu%C3%A9-es-un-certificado-x-509%3F/
Thain, D., Tannenbaum, T., and Livny, M.. (2004). Distributed Computing in Practice: The Condor Experience. Computer Sciences Department, University of Wisconsin-Madison. Recuperado 23 de agosto 2023 desde https://htcondor.org/doc/condor-practice.pdf
Tannenbaum, T. (2012). [Condor-users] "Condor" name changing to "HTCondor". Mailing List Archives. University of Wisconsin-Madison. Recuperado agosto 23, 2023 de https://lists.cs.wisc.edu/archive/htcondor-users/2012-October/msg00110.shtml
Withers, A., Bockelman, B., Weitzel, D., Brown, D., Gaynor, J., Basney, J., Tannenbaum, T., & Miller, Z. (2018). SciTokens: Capability-based secure access to remote scientific data. Proceedings of the Practice and Experience on Advanced Research Computing.
https://doi.org/10.1145/3219104.3219135
Yoo, A. B., Jette, M. A., & Grondona, M. (2003). SLURM: Simple Linux Utility for Resource Management. En Lecture Notes in Computer Science (pp. 44–60). Springer Berlin Heidelberg. https://doi.org/10.1007/10968987_3