Hoe kan ik mij website archiveren (web.archive.org) - Softwareontwikkeling

dinsdag 27 april 2010 19:02

Acties:

Verwijderd

Topicstarter

Ik heb de instructies op http://www.archive.org/about/faqs.php # The_Wayback_Machine gevolgd.
En mijn site toegevoegde aan http://www.dmoz.org/

Is er iets mis met mijn robots.txt-?

User-agent: *
# disallow all files in these directories
Disallow: /map1/
Disallow: /map2/
Disallow: /map3/
Disallow: /map4/
Disallow: /map5/
Disallow: /map6/
Disallow: /map7/
Disallow: /map8/
Disallow: /map9/
Disallow: /map10/

User-agent: Googlebot
# disallow all files ending with these extensions
Disallow: /*.extension$
Disallow: /*.extension$
Disallow: /*.txt$

# allow google image bot to search all images
User-agent: Googlebot-Image
Allow: /*

# allow adsense bot on entire site
User-agent: Mediapartners-Google*
Disallow: /*?*

# allow archiving site
User-agent: ia_archiver
Disallow:

En hoe voorkom ik directory browsen?

Iedereen kan nu mijn mappen lezen die ik wil beschermen in www.domein.com/robots.txt.

En het robots.txt is geïndexeerd als tekstbestand op http://web.archive.org/web/*hh_/www.domein.com/robots.txt

Hoe kan ik dit verwijderen en voorkomen dat dit opnieuw wordt geïndexeerd?
(Disallow:/*.txt$)

Is er ook een andere User-agent als Googlebot waaraan ik moet denken in mijn robots.txt?

dinsdag 27 april 2010 19:09

Acties:

Cartman!

Directory browsen kun je vrij makkelijk vinden, heb je al iets geprobeerd? Overigens heb ik nooit specifieke dingen hoeven toevoegen om geindexeerd te worden, gewoon zorgen voor incoming links en klaar ben je in principe.

Over je mappen, als ze zo geheim zijn horen ze denk ik niet op een publieke plek te staan al

dinsdag 27 april 2010 19:23

Acties:

leuk_he

1. Controleer de kabel!

Verwijderd schreef op dinsdag 27 april 2010 @ 19:02:

En hoe voorkom ik directory browsen?

http://www.google.nl/sear...official&client=firefox-a

Maar als je wilt dat iets niet benaderd wordt door spiders dan moet je het ook niet online zetten zonder een vorm van beveiliging.

http://eregie.premier-min...fr/manual/howto/auth.html

(voor andere server werkt het anders, maar je startpost is nogal sumier)

robots.txt i slechts een hint, er zijn evil spiders die juist kijken waar je ze zegt dat je niet mag kijken.

Need more data. We want your specs. Ik ben ook maar dom. anders: forum, ff reggen, ff topic maken
En als je een oplossing hebt gevonden laat het ook ujb ff in dit topic horen.

dinsdag 27 april 2010 19:26

Acties:

RemcoDelft

Archive.org doet dat toch gewoon automatisch? Met een half jaar vertraging dan.

dinsdag 27 april 2010 19:56

Acties:

Creepy

Tactical Espionage Splatterer

Verwijderd schreef op dinsdag 27 april 2010 @ 19:02:
Ik heb de instructies op http://www.archive.org/about/faqs.php # The_Wayback_Machine gevolgd.
En mijn site toegevoegde aan http://www.dmoz.org/

Is er iets mis met mijn robots.txt-?

Geen idee? Wat lukt er niet? Wat gaat er precies mis?

En hoe voorkom ik directory browsen?

Lees de docs van de door jouw gebruikt webserver even door. Dat staat daar vast in uitgelegd.

Iedereen kan nu mijn mappen lezen die ik wil beschermen in www.domein.com/robots.txt.

En het robots.txt is geïndexeerd als tekstbestand op http://web.archive.org/web/*hh_/www.domein.com/robots.txt

Hoe kan ik dit verwijderen en voorkomen dat dit opnieuw wordt geïndexeerd?
(Disallow:/*.txt$)

Een robots.txt is bedoeld om publiekelijk te lezen. *iedereen* kan daar dan ook bij. Hierin moet je dus geen mappen zetten die beschermd zijn. Zorg er dan ook voor dat de beschermde mappen ook daadwerkelijk niet te bekijken zijn. ALs ze publiekelijk staan komt er gegarandeerd iets of iemand een keer langs.

Is er ook een andere User-agent als Googlebot waaraan ik moet denken in mijn robots.txt?

Zoek het eens op? Ik zie in je hele post geen enkele keer dat je zelf al iets hebt uitgezocht of geprobeerd op niet meer dan een "ik heb een manual gevolgd het het lukt niet" na. Probeer aub voordat je een topic opent eerst eens rustig te benken wat je nu wilt bereiken en ga dan gewoon eens op zoek naar een oplossing. Als je er dan echt niet uitkomt dan kan je een topic openen. Doe dat wel op de juiste plek, want PRG draait om programmeren, en niet om zaken als server instellingen. Let dan wel op het beleidstopic en zorgt dat je je topic van de juiste informatie voorziet want nu ben je nogal erg kort door de bocht

"I had a problem, I solved it with regular expressions. Now I have two problems". That's shows a lack of appreciation for regular expressions: "I know have _star_ problems" --Kevlin Henney