wiki

Wiki for sbi.re
Log | Files | Refs | Submodules | README

telechargement.md (10581B)


1---
2title: Trouver des trucs sur internet
3author: peio
4created: 12/11/2021
5updated: 12/11/2021
6---
7
8Parfois on cherche quelque chose dont on est sûr que c'est forcément *quelque
9part* sur internet, mais la question est de savoir où. Ici j'ai envie de
10répertorier quelques bons tuyaux pour trouver certaines choses.
11
12## Précautions de rigueur
13
14Quand on télécharge des choses qui sont protégées par des droits de propriété
15intellectuelle on peut encourir des amendes plus ou moins salées suivant le
16type de contenu, le volume et le lieu de résidence. Heureusement, les cabinets
17d'avocat qui sont en charge de traquer les contravenants on pour objectif
18principal le profit. Ainsi ils visent à attraper avec des méthodes peu
19coûteuses un gros volume de pirates. Il suffit alors d'être légèrement mieux
20caché que la moyenne pour être laissé tranquille.
21
22Une technique qui a une très bonne fiabilité [1](footnote:1) par rapport à son
23prix est la location d'ordinateur dans un datacenter (les fameux "clouds",
24comme aws, ovh ou scaleway). En effet les datacenters sont en quelque sortes
25les eaux internationales d'internet. L'idée est alors d'utiliser cet ordinateur
26pour parler sur internet à votre place (ie de vous construire votre propre VPN
27personnel). Les sbires louent un tel serveur, pour l'utiliser comme passerelle,
28voir la documentation de notre [proxy socks](wiki:meta/socks). Pour plus de
29détails sur internet et comment prendre son indépendances allez voir [l'article
30dédié](wiki:misc/internet).
31
32## Sources générales de méta-informations
33
34Quelques pages web similaire à celle-ci, de bonnes sources pour savoir ou et
35comment obtenir des informations.
36
37- Le subreddit r/piracy. En particulier le
38  [megathread](https://teddit.net/r/Piracy/wiki/megathread) qui liste tout un tas de
39  choses et [les guides](https://teddit.net/r/piracy/wiki/guides).
40- [torrentfreak](https://torrentfreak.com/). Un journal en ligne qui traite des
41  news du monde des torrents et du téléchargement.
42- [wikipedia](https://en.wikipedia.org). Ca peut paraître évident, mais
43  wikipedia est une très bonne source pour trouver le nom de domaine actuel
44  d'un site pirate.
45
46## Les sites incontournables
47
48L'[internet archive](https://archive.org) est une ONG américaine qui s'est
49donnée la mission gargantuesque d'archiver les contenus numériques. Leur projet
50le plus connu est la [wayback machine](https://web.archive.org/), qui permet de
51retrouver certaines anciennes versions de sites. Ils ont également une très
52grosse archive de [livres scannés](https://archive.org/details/texts?tab=collection),
53de très vieux logiciels et jeux, quelques collections d'enregistrement vidéos
54et audio.
55
56## Science
57
58- [sci-hub](https://sci-hub.se/). La source principale pour télécharger des
59  pdfs d'articles qui ont été publiés dans des revues scientifiques. On peut
60  directement rechercher par DOI (l'équivalent de l'ISBN pour les documents
61  scientifiques).
62- [arxiv](https://arxiv.org/), un dépot open-access orienté physique, maths,
63  informatique, pionier du genre, opéré par l'université de Cornell. Attention,
64  les articles y sont des preprints, c'est-à-dire qu'ils n'ont pas été évalués
65  par des pairs.
66- [hal](https://hal.archives-ouvertes.fr/), dépot open-access des institutions
67  de recherche françaises.
68- [zenodo](https://zenodo.org/), un dépot de jeux de données utilisés dans des
69  articles, hébergé par le CERN.
70- [DBLP](https://dblp.dagstuhl.de/), une base de donnée bibliographique pour
71  l'informatique, opérée par l'université Schloss Dagstuhl.
72
73## Internet
74
75- [RFC](https://datatracker.ietf.org/), tous les textes de standards RFC de
76  l'IETF. C'est la description officielle de tout un tas de protocoles et
77  formats de données.
78- [peeringdb](https://www.peeringdb.com/), un réseau social pour les opérateurs
79  réseau! Il s'agit d'une base de donnée où les opérateurs réseaux d'internet
80  peuvent mettre les endroits physiques où ils sont prêts à faire des
81  connexions avec d'autres réseaux (des internet exchanges).
82- [RIPE Atlas](https://atlas.ripe.net/), une interface pour utiliser tout
83  pleins de sondes réseau opérées par la RIPE (le boss de l'internet européen).
84  Ca permet de voir comment sont connectés les réseaux, faire des tests de ping
85  etc.
86- liste des
87  [NOG](https://en.wikipedia.org/wiki/Internet_network_operators%27_group#List_of_Internet_network_operators'_groups),
88  les "groupes d'opérateurs réseaux", souvent des associations informelles
89  d'administrateurs réseaux qui opèrent des mailing lists.
90
91## Articles, pages, textes, livres (non scientifique)
92
93- [Libgen](https://libgen.fun/). Similaire à sci-hub, mais plus orienté vers
94  les livres. On y trouve des livres de cours, des fictions dans différentes
95  langues. Souvent des pdfs ou un format de scan un peu moins connu: dejavu.
96- [Project Gutenberg](https://www.gutenberg.org/). Un projet collaboratif pour
97  éditer en epub (le format pour les liseuses) les livres qui sont dans le
98  domaine publique au USA.
99- [Standard Ebooks](https://standardebooks.org/), un projet bénévole qui sort
100  de belles éditions numériques de livres dans le domaine publique.
101- [Wayback Machine](https://web.archive.org/), la base de donné de pages web
102  capturées par l'internet archive. Très utile pour tenter de récupérer une page
103  qui n'est plus en ligne.
104- [archive.md](https://archive.md/). C'est à strictement parler un service de
105  capture de page semblable à la Wayback Machine de l'Internet Archive, mais qui
106  est souvent utilisée pour faire des captures d'articles sur des journaux
107  anglo-saxons comme le NYT, FT ou encore WSJ (par exemple [ce dossier sur
108  facebook](https://archive.md/YHmiJ)).
109- Les [outils webrecorder](https://webrecorder.net/), en particulier
110  [archiveweb.page](https://archiveweb.page/) et
111  [replayweb.page](https://replayweb.page/) qui permettent respectivement de
112  faire des captures de sites dynamiques comme par exemple des pages facebook et
113  de les "re-jouer".
114
115Voir également la liste de [r/piracy](https://teddit.net/r/Piracy/wiki/megathread/reading_material_and_elearning).
116
117## Vidéos, films, séries
118
119Trackers bittorrent publics (éviter the pirate bay, le contenu et les commentaires sont peu fiables):
120
121- [RARBG](https://rarbg.to)
122- [1337x](https://1337x.to)
123
124Voir également la liste de
125[r/piracy](https://teddit.net/r/Piracy/wiki/megathread/movies_and_tv) qui donne
126aussi des sites de streaming.
127
128## Interfaces alternatives pour des plateformes
129
130Un certain nombre de plateformes sociales (pour ne pas dire toutes) ont des
131sites web qui sont lourds, remplis de mouchards javascript, utilisent des
132techniques de manipulation pour parvenir à leurs fins (nous faire rester et
133participer). Il existe des sites et des logiciels qui permettent de se connecter
134à ces plateformes, mais avec des interfaces au service de l'utilisateur.
135
136> /!\ Ces interfaces alternatives sont souvent combattues par les principaux
137  intéressés, il arrive donc qu'elles ne marchent plus. Parfois elles sont mises
138  à jour, parfois elles meurent.
139
140- [teddit.net](https://teddit.net), interface web légère pour reddit
141- [bibliogram.art](https://bibliogram.art/), interface pour instagram; pratique
142  pour naviguer sans compte; restrictions d'historique dues à insta
143- [nitter.net](https://nitter.net/), interface web pour twitter
144- [tube.cadence.moe](https://tube.cadence.moe/), interface web pour youtube
145- [invidious](https://invidious.io/), une autre interface web pour youtube, ça
146  marche pas hyper bien dernièrement
147
148TODO: liste d'appli android etc
149
150## Portails open-data
151
152Un certain nombre d'institutions gouvernementales proposent des jeux de données
153accessible au public.
154
155- [legifrance](https://www.legifrance.gouv.fr/), textes de lois français.
156- [data.gov](https://catalog.data.gov/dataset), gouvernement américain.
157- [data.gouv.fr](https://www.data.gouv.fr/fr/datasets/), gouvernement français.
158
159## Cartographie
160
161- [openstreetmap](https://www.openstreetmap.org/), l'interface officielle pour
162  openstreetmap, le wikipedia des cartes.
163- [facilmap](https://facilmap.org/), une interface web un peu plus sympathique
164  pour openstreetmap.
165- [geoportail](https://www.geoportail.gouv.fr/), site web grand-public pour
166  naviguer dans les données de l'IGN. Contient des vieilles cartes de france,
167  le cadastre officiel, les batiments publics, etc. Voir également
168  [geoservices](https://geoservices.ign.fr/) pour accéder aux jeux de données
169  et aux serveurs de fond de carte de l'IGN.
170- [submarinecablemap](https://www.submarinecablemap.com), une carte des fibres optiques
171  sous-marines dans le monde.
172
173## tHe ScENe
174
175La [scene](https://en.wikipedia.org/wiki/Warez_scene) est le nom usuel de la
176communauté underground mondiale de piratage multimedia (le "warez", pour
177"software"). Sans commandement central, il s'agit d'une galaxie de *groupes*
178dont vous avez peut-être déjà croisé les noms. Habituellement, on fait une
179distinction entre les groupes *scene* qui publient leurs production sur des
180serveurs centralisés privés et fuitent progressivement vers des serveurs de
181téléchargement plus ou moins publics, des groupes *p2p* qui publient sur le
182réseau bittorrent (soit en public soit dans des communautés privées). La raison
183pour laquelle il est important de savoir ça est que différents groupes ont
184différentes réputations, différents objectifs (certains publient des copies
185conformes de blu-ray à 70GiB, d'autres se spécialisent dans les anime, etc).
186
187L'avantage de la scene est qu'il existe des bases de données publiques des
188*releases*: on les appelle des "pre-db":
189
190- [predb.me](https://predb.me/)
191- [corrupt-net.org](https://pre.corrupt-net.org/)
192
193Ces bases permettent de:
194
195- savoir si un groupe a fait une release de ce qu'on cherche, le cas échéant il ne
196  suffit plus que de trouver une source
197- savoir si un torrent ou autre provient bien d'une release légitime (sur les
198  sites de torrents publiques il arrive souvent que les fichiers soient
199  re-taggés, c'est-à-dire attribué à des mauvais groupes)
200
201## Random bizarre
202
203- [supermicro](https://www.supermicro.com/wdl/), tout pleins de dossiers avec
204  des drivers, outils et documents officiels de chez Supermicro
205
206> footnotes
207
208  1. Par "bonne fiabilité", je veux dire que vous ne devriez pas être embêté
209     même pour des volumes indécents de téléchargement. Là il faudrait commencer
210     à *redistribuer* pour commencer à sortir du lot et se faire repérer.