GitHub Archive Program – El archivo de todo el software libre para preseverar su futuro.

ADMIN Tecnología

En las bibliotecas guardamos libros. En las videotecas, material audiovisual. ¿Dónde guardar el software de hoy para que lo conozcan las generaciones de mañana?

¿Cómo almacenar el contenido digital que generamos? ¿Dónde hacerlo? ¿Quién debería hacerse cargo de este almacenaje? Uno de los proyectos de documentación digital más populares es “Internet Archive”, organización sin ánimo de lucro dedicada a preservar páginas web, software antiguo, juegos y demás piezas de software que han caído en el olvido y que, en muchos casos, si no fuera por ese archivo, habrían desaparecido completamente.

En la actualidad, el almacén digital de Internet Archive ofrece más de 391.000 millones sitios web y almacena desde fotografías a audios, vídeos, libros electrónicos, programas de TV, libros y textos, etc.

GitHub, uno de los repositorios de código fuente líder en el mercado, usado por más de 40 millones de desarrolladores, ha anunciado varias novedades como aplicaciones móviles para acceder a su plataforma o un ambicioso proyecto llamado GitHub Archive Program.

Pensando en el futuro

La labor de plataformas como GitHub es importante, ya que permiten que desarrolladores de todo el mundo puedan hospedar su software y ofrecerlo al mundo de manera desinteresada. Pero con el paso de los años, parte de esas piezas de código caerán en el olvido o desaparecerán.

En colaboración con Long Now Foundation, Internet Archive, Software Heritage Foundation, Arctic World Archive, Microsoft Research, the Bodleian Library, y Stanford Libraries, GitHub anunció a mitad de noviembre de 2019 que está preparando un almacén donde guardar varias copias de software para que se conserve durante al menos 1.000 años.

En primer lugar, el software elegido para almacenar será de código abierto, open source, es decir, software que permita el acceso a su código para su libre edición de manera que pueda surgir nuevo software o mejorar el original.

En segundo lugar, cualquiera puede aspirar a que su software forme parte de este almacén. Simplemente deberá hospedarlo en GitHub como repositorio público. El 2 de febrero de 2020 (02/02/2020), GitHub hará una captura de todos los repositorios públicos activos en GitHub para su preservación en el Artic Code Vault.

El propósito de GitHub Archive Program es que los historiadores del futuro lo tengan más fácil para descubrir cómo era el software del pasado, más difícil de conservar que el hardware, y por ende cómo era nuestra sociedad o hasta qué punto evolucionó nuestra tecnología.

Un bunker a 250 metros bajo tierra

¿Cuál es el mejor sitio para almacenar software y preservarlo durante más de 1.000 años? la organización Arctic World Archive, tiene un almacén situado a gran profundidad en Noruega. En esta zona desmilitarizada bajo el amparo de más de 40 países, desde 2017 se almacenan datos y contenido de interés para la humanidad. Un almacén digital a buen recaudo en caso que se produzca un desastre mundial y cuyo contenido se conservará durante al menos 500 años.

El Arctic World Archive se encuentra en una mina de carbón abandonada a más de 250 metros bajo tierra. En principio, a salvo de un Apocalipsis nuclear. Y aprovechando sus instalaciones, el GitHub Arctic Code Vault formará parte de este archivo subterráneo para dejar constancia a la humanidad del futuro del software creado hasta mil años antes.

Archivando software en capas

El proyecto GitHub Archive Program va más allá de este almacén subterráneo. Siguiendo las bases que rigen la copia de seguridad y la preservación de contenido digital, el proyecto consta de hasta ocho partes para que el proceso de almacenamiento sea flexible, redundante y sobreviva en el tiempo.

GitHub procura que el contenido que hospeda en sus servidores se replique en distintos centros de datos repartidos por todo el mundo. En paralelo, GHTorrent monitoriza cualquier evento que se produce en GitHub y genera una base de datos MongoDB disponible para su descarga con actualizaciones diarias o mensuales. Y también en paralelo, el proyecto GH Archive monitoriza GitHub y genera snapshots o capturas cada hora, día y mes.

En segundo lugar, las organizaciones Internet Archive y Software Heritage Foundation replican los repositorios públicos de GitHub y los añaden a sus propios archivos y servidores.

En una tercera fase, el 2 de febrero de 2020 se creará la captura o copia definitiva del contenido hospedado públicamente en GitHub y se almacenará en el Arctic World Archive en bobinas de película de más de un metro de largo (3.500 pies) fabricadas con halogenuro de plata sobre poliéster, lo que en un principio les da una esperanza de vida de más de 500 años. En paralelo, Bodleian Library hará una copia en paralelo de ese mismo contenido.

Y en la fase final, Microsoft Research, a través de su proyecto Silica archivará el contenido del GitHub Archive Program para que duren más allá de 10.000 años. Para ello, almacenarán esa información en cristales de cuarzo empleando un láser especial.

En este proyecto han participado antropólogos, arqueólogos, historiadores, lingüistas y expertos en documentación y futuristas, entre otros perfiles con el objetivo de determinar qué contenido almacenar y cómo hacerlo recuperable por las sociedades del futuro.

Para empezar, en el archivo se incluirán guías técnicas y los metadatos necesarios para convertir los datos almacenados al código fuente original. Para ello, se incluirá un roadmap llamado Tech Tree y una especie de Piedra Roseta para que los humanos del futuro puedan entender el contenido archivado en el GitHub Archive Program. En concreto, el árbol tecnológico o Tech Tree explicará lo necesario para comprender cómo funcionaba el código abierto y cómo reconstruir las tecnologías asociadas desde cero.

Todo un reto este proyecto que se puede considerar si llega a ejectuarse como una de las maravillas del mundo o como un patrimonio mundial de la humanidad.