CNET también está disponible en español.

Ir a español

Don't show this again

guía de compras navideñas
Cultura tecnológica

Internet Archive: 20 años de archivar las páginas Web del mundo

Una antigua iglesia en San Francisco alberga las instalaciones del Internet Archive, una organización que desde hace 20 años intenta recopilar y archivar digitalmente todas las obras publicadas por la humanidad.

Reproduciendo: Mira esto: El templo 'geek' que alberga millones de archivos digitales
3:37

SAN FRANCISCO, California -- En julio de 2016, solo unos meses antes de las elecciones presidenciales en Estados Unidos, varios medios de comunicación empezaron a publicar reportes que cuestionaban la veracidad del currículum que Melania Trump, esposa del entonces candidato republicano, Donald Trump, había colgado en su página Web, y dudaban de que realmente hubiera obtenido un título de Arquitectura en Eslovenia. Poco después, la información había desaparecido y melaniatrump.com dirigía a Trump.com, la Web de la organización Trump.

Sin embargo, una copia de la página, tal y como se veía el 29 de mayo, estaba disponible en la red para todo el que quisiera consultarla o citarla.

El Internet Archive, o Archivo de Internet, es la organización sin ánimo de lucro responsable de esta documentación. La entidad acaba de cumplir veinte años, dos décadas en las que su fundador, Brewster Kahle, y el resto de sus trabajadores han concentrado esfuerzos en intentar preservar todo el trabajo publicado de la humanidad y crear una enorme colección a la que se puede acceder a través de archive.org.

Parece una empresa imposible, pero desde la sede del archivo, en San Francisco, Kahle asegura que no lo es. "Un libro ocupa alrededor de un megabyte, y la mayor biblioteca del mundo es la Biblioteca del Congreso, con 26 ó 28 millones de libros. Eso son 28 terabytes. ¡28 terabytes no es tanto!"

A pesar de este optimismo, la tarea no es pequeña. Las colecciones del Congreso incluyen en realidad más de 38 millones de libros y otros materiales impresos, según datos de la biblioteca, pero en todo caso, el trabajo de este archivo va mucho más allá. Intentan recopilar todos los libros, sí, pero también los programas de televisión, los archivos de audio, la música, las revistas, los programas de software... Lo que quizá es más llamativo, y también más complicado, son las páginas Web, los documentos con los que empezaron su andadura y que resultan más complejos.

No todas las páginas Web están archivadas. La página con la que colaboraste en la escuela puede estar disponible, o puede que no, porque la Web es demasiado grande, y demasiado dinámica, como para poder guardar todas sus representaciones. Al menos por el momento.

Piensa en una pagina como YouTube.com. En 2015, la compañía aseguraba que sus usuarios estaban subiendo 300 horas de video por minuto. Sería muy difícil guardar cada uno de estos videos. En el caso de la Web de Melania Trump, el archivo ha capturado la página 170 veces desde abril de 2013.

Reproduciendo: Mira esto: Cómo encontrar páginas Web desaparecidas
2:50

El Internet Archive prioriza la información de diferentes maneras, que se resumen en una. En palabras de Alexis Rossi, directora de medios y acceso: "No capturamos todo, pero intentamos capturar todo aquello que tenemos alguna razón para pensar que es importante. Intentamos priorizar cosas que pensamos que son populares. También priorizamos cosas que pensamos van a tener buena información".

En la práctica, esto quiere decir varias cosas. El Archivo de Internet captura la Web utilizando crawlers, es decir, programas informáticos que rastrean la Web de manera sistemática para encontrar e indexar la información. Esta información se prioriza de diferentes maneras. En algunos casos, este rastreo comienza con las páginas más populares según empresas como Quantcast o Alexa Internet (cofundada, por cierto, por el propio Kahle). Otros son más específicos, como los que siguen los enlaces citados en Wikipedia. Por otra parte, el archivo trabaja también con bibliotecarios e instituciones para crear colecciones con algún interés temático o campos específicos, como por ejemplo los archivos de la Universidad de Texas o páginas relacionadas con asuntos migratorios entre Estados Unidos y México.

Todo ello se puede encontrar en la llamada Wayback Machine, aunque su navegación, por el momento, no es tan sencilla como buscar términos en Google. En el caso de las páginas Web, el usuario puede introducir la dirección y navegar por un calendario que señala cuándo se capturó la página. En otros materiales, la búsqueda se lleva a cabo a través de metadatos, como el autor o el título de un libro.

Un templo a la cultura 'geek'

Entrar en la sede del Internet Archive en San Francisco, junto al parque del Presidio, es como explorar las instalaciones de un templo a la cultura geek. Desde 2009, el archivo tiene sus oficinas en una antigua iglesia de la Ciencia Cristiana. "¡Lo compramos porque coincidía con nuestro logotipo!", dice Kahle, hablando del pequeño símbolo, de reminiscencias clásicas y similar al Partenón, que representa a la organización. Su interior conserva los bancos de la iglesia, sobre los que reposan cojines cubiertos con camisetas de conferencias sobre tecnología, software libre y otras referencias similares. Los servidores están a la vista a modo de ídolos religiosos, y en diferentes rincones se pueden encontrar pequeñas obras y guiños a la ciencia. Junto al escenario, los "salmos" no son tales, sino las primeras cifras de pi a la izquierda y el número áureo a la derecha.

Si esto es llamativo, aún lo es más cuando los habitantes permanentes de este espacio son una colección de figuras de arcilla que representan a cada una de las personas que han trabajado en el archivo durante al menos tres años. Entre ellas se encuentra la de Aaron Swartz, el activista de Internet que trabajó para facilitar el acceso universal a la información hasta su suicidio en 2012, tras ser acusado de varias violaciones de la Ley de Abuso y Fraude de Computadoras de 1986 por descargar de manera sistemática los artículos académicos de la biblioteca digital JSTOR, que de dedica a digitalizar publicaciones académicas. Swartz había contribuído a la creación de Open Library, un proyecto del Internet Archive para crear un catálogo abierto de libros en Internet.

Tanto Swartz -- que tiene su propia colección en el Internet Archive y ha sido homenajeado por la entidad en varias ocasiones -- como Kahle y, de hecho, toda la filosofía del archivo, tienen en común su interés por facilitar el acceso a la información a la mayor cantidad posible de personas. En persona y frente a la cámara, Kahle y Rossi evitan entrar en polémicas a la hora de discutir el tema de los derechos de autor, pero sería ingenuo pensar que no está sobre la mesa.

El Archivo de Internet hace frente a esta situación de distintas maneras. Por una parte, el propietario de una página puede pedir que su página no se archive, y la propia Web del archivo proporciona instrucciones para impedir que los 'crawlers' puedan rastrear tu página. Además, algunos materiales del archivo están sólo disponibles mediante en formato de préstamo, para lo que es necesario estar registrado. Esto no quiere decir que el archivo no se haya enfrentado a problemas legales en su historia, con un par de casos en los que la acusación reclamaba compensaciones por violaciones a su propiedad intelectual, que se saldaron mediante un acuerdo entre las partes.

"Los asuntos de derechos de autor siempre giran alrededor de modelos de negocio, y a veces estos modelos de negocio ya se han desvanecido, pero las leyes siguen allí, así que se aplican de manera selectiva", comenta Kahle al ser preguntado sobre el tema del copyright. "La clave para nosotros es no interrumpir el comercio".

"No queremos dañar el modelo de negocio de nadie", añade Alexis Rossi. "Queremos cumplir con nuestro papel como biblioteca, pero siendo respetuosos con otros".

La meta: compartir información

En algunos casos, como el archivo de conciertos de música en directo, Rossi señala que la colección depende de voluntarios que graban la música de artistas que "han dicho específicamente que sus fans pueden grabar sus conciertos, y en este caso, compartirlos en el archivo en un espacio no comercial". En otros, son de hecho otras bibliotecas las que pagan por digitalizar libros, lo que sirve para financiar el trabajo de esta entidad.

Para Brewster Kahle, también miembro de la junta directiva de la Electronic Frontier Foundation (una organización sin ánimo de lucro que defiende las libertades civiles en la red), al final todo se resume en un objetivo único: compartir información. El fundador del Internet Archive, que se define como un geek y ciertamente dirige esta biblioteca como tal, no es solo una mente brillante que estudió inteligencia artificial en el Massachussets Institute of Technology (MIT), sino un emprendedor obsesionado con crear una Biblioteca de Alejandría 2.0 -- algo que no solo repite en numerosas ocasiones a la hora de referirse a este proyecto, sino que se puede ver en la elección de su logo (y sede), en la elección del nombre de Alexa Internet, y en la decisión de guardar una copia de parte de la colección del archivo en la actual Biblioteca Alexandrina, en Egipto.

"La idea me llamó la atención como algo que no sería capaz de alcanzar en toda mi vida, pero que sería una carrera muy divertida", dice Kahle, que habla del Internet Archive como un padre orgulloso.

Navegar la Wayback Machine estos días es, por un lado, curioso. En esta Web puedes encontrar desde el Oregon Trail, el famoso videojuego de los 90 que cualquier treintañero estadounidense recuerda emocionado, hasta intervenciones televisivas del presidente mexicano Enrique Peña Nieto, pasando por los tuits que la banda Radiohead borró cuando decidió desaparecer de la red en mayo de este año o miles de conciertos de Grateful Dead, que resultan ser una de las colecciones más populares del archivo. Pero, además de curioso, puede resultar fundamental.

Imagina que estás escribiendo un artículo y que una de las principales fuentes que citas en él es una página Web. Imagina que, al día siguiente de hacer público tu trabajo, la información ha cambiado totalmente. Rossi cita un estudio llevado a cabo en la Universidad de Harvard que en 2013 documentó que el 50 por ciento de las URLs encontradas en los fallos del Tribunal Supremo no enlazaban a la información original. "Esta es la ley de nuestro país, y está basada en recursos que ya no existen".

"La Web es la documentación de nuestro tiempo, y si no se guarda, ¡se puede cambiar!", advierte Kahle. "Podemos vivir en este mundo Orwelliano donde una corporación puede cambiar el pasado porque ya no quieren que esté allí. Ese es un mundo terrible en el que vivir". En ese sentido, el fundador del Internet Archive señala que uno de los mayores riesgos es el cierre de la Web. Obviamente, el archivo no intenta guardar y mostrar la información privada que envías por email, pero si Facebook, por ejemplo, se convierte en el único lugar donde consultar las noticias, la apertura que Kahle defiende podría complicarse. "Creo que existe el riesgo de que perdamos el mundo abierto, de que la apertura de Internet y de la World Wide Web se vuelva mucho más controlada, orientada a las aplicaciones y monitoreada de manera corporativa y gubernamental".

"Yo diría que somos activistas de la información, somos personas que creemos en el poder de la apertura, en la educación universal". Por su parte, el Internet Archive abre sus puertas los viernes a todos los que quieran visitar sus instalaciones y ver de cerca cómo funciona la organización que se enorgullece de haber archivado, a lo largo de su historia, más de 273,000 millones de páginas Web.