Internet Archive

Un article de Wikipédia, l'encyclopédie libre.

L'Internet Archive, également connu sous le sigle IA est une organisation à but non lucratif consacrée à l'archivage du Web, située dans le Presidio de San Francisco, en Californie. Le projet sert aussi de bibliothèque numérique. Cette archive est constituée de clichés (copie de pages prises à différents moments) du réseau internet, de logiciel, de film, de livre et d'enregistrement audio.

Pour assurer la stabilité et la sécurité de leurs archive, une copie miroir est conservé à la Bibliotheca Alexandrina[1] en Égypte. L'IA rend ses collections disponibles gratuitement aux chercheurs, historiens et universitaires. Elle est membre de l'American Library Association et est officiellement reconnue par l'État de Californie comme une bibliothèque[2].

Sommaire

[modifier] Histoire

Fondée en 1996 par Brewster Kahle.

En raison de leurs objectifs, la préservation de la connaissance humaine et l'accessibilité pour tous à ces collections les fondateurs de l'Internet Archive compare ce projet à celui plus ancien de la grande Bibliothèque d'Alexandrie.

[modifier] Wayback Machine

La Wayback Machine est la partie des clichés Web de IA. Elle est mise à jour à partir du contenu de "Alexa Internet". Ce service permet aux utilisateurs de voir les versions archivées de pages Web et ce, à travers le temps. Ce service est appelé "index à trois dimensions".

Les clichés sont disponibles de 6 à 12 mois après leurs captures. La fréquence des instantanés est variable, toutes les mises à jour de sites Web ne sont pas enregistrées, et des intervalles de plusieurs semaines peuvent être remarqués.

Exemple avec le figaro

En 2006, la Wayback Machine contenait près de 2 petaoctets de données. Le volume augmente à un rythme de 20 téraoctets par mois, cela représente une augmentation de 2/3 par rapport aux 12 téraoctets / mois qui était le taux de croissance en 2003. Cette croissance est supérieure à la quantité de texte contenue dans les plus importantes bibliothèques du monde, notamment la Bibliothèque du Congrès. Les données sont stockées sur Petabox rack des systèmes fabriqués par Capricorne Technologies. [3]

Le nom Wayback Machine est une référence à une partie de "The Rocky and Bullwinkle Show" dans lequel Mr. Peabody, un chien avec un air professoral et sont assistant Sherman (un animal de compagnie humain),utilise une machine à remonter le temps appelé "WABAC Machine" pour décrire des évènements historiques célèbres[3].

[modifier] Archive-It

Les utilisateurs désireux d'archiver en permanence et immédiatement leurs données peuvent utiliser, moyennant un abonnement, le service Archive-It[4] . Les données recueillies par Archive-It sont périodiquement indexées par la Wayback Machine. En décembre 2007, ce service avait créé plus de 230 millions d'URL pour 466 collections publiques, y compris des organismes gouvernementaux, des universités et des institutions culturelles.

Exemple d'organisations participant à Archive-It :

  • Electronic Literature Organization
  • les Archives d'Etat de Caroline du Nord
  • le Texas State Library and Archives Commission
  • l'Université de Stanford
  • la Bibliothèque nationale d'Australie
  • le Research Libraries Group (RLG)
  • et bien d'autres

[modifier] Collections

En plus des archives Web, Internet Archive conserve d'importantes collections de médias numériques qui sont soit du domaine public soit titulaire d'une licence permettant leurs redistributions, comme la Creative Commons License. Les médias sont organisés dans les collections par type de média (images animées, son, texte,…), et en sous-collections selon différents critères. Chaque collection principale comprend une sous-collection "Open Source" ou les contributions du public en général peuvent être stockées.

Ses collections incluent[5] :

[modifier] Images vidéos

Mis à part les longs métrages, la collection vidéo de IA comprend: des actualités, des classiques de la bande dessinée, de la propagande pro et anti-guerre, la collection "A.V. Geeks" de Skip Elsheimer et des documents plus éphémères des Archives Prelinger comme, des publicités, des films éducatifs et industriels et des collections de films amateurs.

Exemple de collection : Brick Films

  • "Brick Films", regroupe des films d'animation filmés à l'aide de briques LEGO, dont certains sont des reprises de films de long métrage.
  • Élection 2004, est un espace public et non-partisan dédié au partage du matériel vidéo relatif à l'élection présidentielle 2004 aux États-Unis.
  • Independent News, comprend des sous-collections tels que l'"Internet Archive World At War competition from 2001".Parmi les plus téléchargés, on retrouve les vidéos réalisés par des témoins oculaires du tremblement de terre de l'océan Indien en 2004. Le "September 11th Television Archive" contient les vidéos de tous les grands réseaux de télévision du monde relatif à l'attaque du 11 septembre 2001 contre le "World Trade Center".

exemple de film français :

[modifier] Sons

La collection audio inclut de la musique, des livres audio, des émissions d'information, des spectacles radiophoniques anciens et une grande variété d'autres fichiers audio. La sous-collection "Live Music Archive" comprend 40000 enregistrements de concerts d'artistes indépendants, ainsi que des artistes plus établis et des ensembles musicaux avec des règles plus permissives sur l'enregistrement des concerts tels que le Grateful Dead.

[modifier] Textes

Cette collection rassemble des textes du Projet Gutenberg, des textes de diverses bibliothèques à travers le monde ainsi qu'une collection de documents et de notes issues de ARPANET.

[modifier] Librairie libre

Internet Archive est membre de l"Open Content Alliance", et exploite l'"Open Library" où plus de 200000 livres numérisés appartenant au domaine public mis à disposition sous une forme aisément consultable et un format imprimable[6],[7] . Leurs systèmes de numérisation de livre (Scribe)» est utilisé pour cette tâche .[8] .

[modifier] Controverses

[modifier] Site de la scientologie

À la fin de l'année 2002, Internet Archive a enlevé différents sites critiques à l'égard de la scientologie de la "Wayback Machine"[9]. Le message d'erreur indique que c'était à la suite d'une "demande formulée par le propriétaire du site"[10]. Il a par la suite été précisé que les avocats de L'Église de Scientologie avaient exigé le retrait, sans aucun motif juridique, et que les propriétaires de ces sites ne voulaient pas que leurs pages soient retirées [11].

[modifier] Les archive internet comme preuve

[modifier] Contentieux civil aux États-Unis

[modifier] Telewizja Polska

En octobre 2004 dans une affaire appelée "Telewizja Polska SA vs Echostar Satellite", un juriste tente d'utiliser les archives de la Wayback Machine comme source d'éléments de preuve recevables, probablement pour la première fois. Telewizja Polska est le fournisseur de TV Polonia et de EchoStar exploitant le Dish Network. Avant le procès, EchoStar a indiqué qu'il avait l'intention d'utiliser des clichés provenant de la "Wayback Machine" comme preuve du contenu passé du site internet de Telewizja Polska. Telewizja Polska a déposé une requête in limine pour supprimer les clichés justifiants de ouï-dire et de source non authentifiés, mais le juge Arlander Keys a rejeté les affirmations de Telewizja Polska et a refusé d'exclure ces éléments de preuve lors du procès [12].Toutefois, au moment du procès, le juge de la cour du district, "Ronald Guzman", en première instance, a annulé les conclusions du juge Keys, et a conclu que ni l'Internet Archive ni les pages sous-jacentes (c'est-à-dire, le site de Telewizja Polska) n'étaient admissibles comme preuve. Le juge Guzman a estimé que l'impression d'une page internet n'était pas une preuve d'authentification de l'information[13].

[modifier] Healthcare Advocates, Inc.

En 2003, Healthcare Advocates, Inc. ont été accusé dans un procès de violation de marque. La poursuite a tenté d'utiliser du matériel internet archivé accessible via Internet Archive. Après avoir perdu ce procès, la compagnie s'est retournée contre Internet Archive et a tenté de les poursuivre pour violation de la "Digital Millennium Copyright Act" (DMCA) et le Computer Fraud and Abuse Act. Ils ont fait valoir que, puisqu'ils avaient installé un fichier robots.txt sur leur site web, il aurait dû être évité par le robot de Internet Archive[14]. La première plainte a été déposée le 26 juin 2003, et ils ont ajouté le fichier robots.txt, le 8 juillet 2003, les pages devant être retirées rétroactivement. Le procès avec Healthcare Advocates s'est réglé à l'amiable [15].

Robots.txt est utilisé dans le cadre du protocole d'exclusion des robots (Robots Exclusion Standard), une norme d'application volontaire qu'Internet Archive applique et qui interdit aux robots d'indexer certaines pages marquées par le créateur comme hors limite. En conséquence, l'Internet Archive a supprimé un certain nombre de sites Web qui sont maintenant inaccessibles via la Wayback Machine. Ceci est parfois dû à un nouveau propriétaire qui plaçait un fichier robots.txt interdisant l'indexation du site. Les administrateurs disent travailler sur un système qui permettra l'accès aux archives précédentes tout en excluant les éléments créés après l'ajout du fichier. Actuellement, Internet Archive applique la règle du Robot.txt rétroactivement. Si un site bloque Internet Archive, à l'instar de Healthcare Advocates, toutes les pages précédemment archivées depuis ce domaine sont également supprimées. Dans les cas de sites bloqués, seul le fichier robots.txt est archivé. Cette pratique semble être préjudiciable aux chercheurs accédant à des informations disponibles dans le passé.

Toutefois, Internet Archive précise également que, « parfois, un propriétaire de site Web nous contacte directement et nous demande d'arrêter l'indexation ou l'archivage d'un site. Nous nous conformons à ces demandes. » Ils ont aussi expliqué qu'« Internet Archive n'est pas intéressé par la préservation ou l'offre d'accès a des sites Web ou d'autres documents Internet appartenant à des personnes qui ne voudraient pas que leur matériel soit archivé ».

[modifier] Loi des brevets

L'Office des brevets aux États-Unis et, sous réserve que des exigences supplémentaires soient remplies (par exemple, fournir une déclaration officielle de l'archiviste), l'Office européen des brevets accepteront une datation d'Internet Archive comme preuve de la publication d'une page Web. Ces dates sont utilisées pour déterminer si une page Web est disponible avant par exemple la date de dépôt d'une demande de brevet.

[modifier] Droit d'auteur

[modifier] Grateful Dead

En novembre 2005, le téléchargement gratuit du concert de Grateful Dead a été supprimé du site. John Perry Barlow a identifié Bob Weir, Mickey Hart, et Bill Kreutzmann comme les instigateurs de ce changement, d'après un article du New York Times[16]Le 30 novembre, un poste sur le forum de Brewster Kahle a résumé ce qui semble être le compromis atteint entre les membres du groupe. Les concerts "Live" peuvent être téléchargés ou écoutés, et les enregistrements seront disponibles pour écoute seulement. Les concerts ont, depuis, été ajoutés [17].

[modifier] Suzanne Shell

Le 12 décembre 2005, la militante Suzanne Shell réclame la somme de 100000$ USD pour l'archivage de son site Internet profane-justice.org entre 1999 et 2004[18]. Le 20 janvier 2006, Internet Archive dépose une action en jugement déclaratoire dans le district du nord De la Californie, demandant au tribunal expliquant que Internet Archive ne violait pas les droits d'auteur de Shell. Shell a répondu et a déposé une autre plainte contre Internet Archive pour l'archivage de son site, elle invoquait la violation de ses conditions de service[19]. Le 13 février 2007, un juge du district du Colorado a rejeté toutes les demandes sauf celle de rupture de contrat[20]. Le 25 avril 2007, Internet Archive et Suzanne Shell ont conjointement annoncé le règlement de leur litige. L'Internet Archive a déclaré : « Internet Archive n'a aucun intérêt à insérer des informations dans la Wayback Machine de personnes qui ne veulent pas avoir leurs contenus Web archivés. Nous reconnaissons que Mme Shell possède un droit d'auteur valide et applicable dans son site Web et nous regrettons que l'inscription de son site Web dans la Wayback Machine ait abouti à ce contentieux. Nous sommes heureux d'avoir cette affaire derrière nous. » Mme Shell a déclaré : « Je respecte l'objectif et la valeur historique de Internet Archive. Je n'ai jamais eu l'intention d'interférer avec cet objectif ni de causer aucun dommage. »[21].

[modifier] Situation du copyright en Europe

En Europe, la Wayback Machine peut parfois enfreindre les lois du copyright. Seul le créateur peut décider de l'endroit où son contenu est publié ou reproduit, les pages devront être supprimées des archives sur demande du créateur [22].

[modifier] Outils Internet Archive

Le robot d'indexation utilisé par Internet Archive est Heritrix, un logiciel libre, programmé en Java. Le logiciel de numérisation de livre est Scribe, ce logiciel est gratuit et en open-source (Scribe Software).

[modifier] Notes et références

  1. Internet Archive à la nouvelle bibliothèque d'Alexandria
  2. "Internet Archive officially a library", 2 mai 2007.
  3. Green, Heather."A Library as Big as the World", BusinessWeek, 28 Février 2002
  4. Stefanie Olsen. "Preserving the Web one group at a time", CNet News.com, 1 Mai, 2006
  5. « La mémoire du Web est sur Archive.org, qui répertorie quelque 65 millions de sites , Le Monde, 14 novembre 2007
  6. Gonsalves, Antone. "Internet Archive Claims Progress Against Google Library Initiative" InformationWeek, 20 Décembre 2006
  7. "The Open Library Makes Its Online Debut" Chronicle of Higher Education, The Wired Campus 9 juillet 2007
  8. Olsen, Stefanie An open-source rival to Google's book project CNET News.com, 26 Octobre 2005
  9. Bowman, Lisa M Net archive silences Scientology critic CNET News.com 24 Septembre 2002
  10. Jeff 23 Septembre 2002 exclusions from the Wayback Machinel'auteur et la date sont celle du créateur de l'article dans le forum
  11. Miller, Ernest. (24 Septembre) Sherman, Set the Wayback Machine for Scientology (Blog)
  12. Gelman, Lauren (17 Novembre 2004) Internet Archive’s Web Page Snapshots Held Admissible as Evidence Packet 2 (3)
  13. Howell, Beryl A. (Février 2006)http://www.strozllc.com/docs/pdf/PROVING_WEB_HISTORY_Jrl_of_Internet_Law_Feb%202006.pdf Proving Web History: How to use the Internet Archive Journal of Internet Law 3-9
  14. Dye, Jessica (2005) "Website Sued for Controversial Trip into Internet Past" EContent 28 (11): 8-9
  15. Bangeman, Eric. (31 aout 2006) [http://arstechnica.com/news.ars/post/20060831-7634.html Internet Archive Settles Suit Over Wayback Machine ars technica
  16. Jeff Leeds; Jesse Fox Mayshark. Wrath of Deadheads stalls a Web crackdown (republication of article from New York Times) 1 Décembre 2005
  17. Brewster Kahle; Matt Vernon (1 Décembre 2005). Good News and an Apology: GD on the Internet Archive (Blog) Live Music Archive Forum
  18. Lewis T. Babcock (13 Fécrier 2007). Internet Archive v. Shell (PDF), Civil Action No. 06cv01726LTBCBS.
  19. Claburn, Thomas. Colorado Woman Sues To Hold Web Crawlers To Contracts, InformationWeek, 16 Mars 2007
  20. Samson, Martin. Internet Archive v. Suzanne Shell.via Phillips Nizer LLP
  21. Internet Archive and Suzanne Shell Settle Lawsuit, 25 avril 2007
  22. German lawyer about the Wayback Machine in a law paper, Journal of Internet Law: JurPC

[modifier] Voir aussi

[modifier] Liens externes