Check alle échte Black Friday-deals Ook zo moe van nepaanbiedingen? Wij laten alleen échte deals zien

.htaccess/robots.txt - is dit voldoende afgeschermd?

Pagina: 1
Acties:

  • SkyStreaker
  • Registratie: Juni 2002
  • Laatst online: 21:59
Ik heb mij vooraf hopelijk goed laten informeren en eigenhandig deze files gemaakt, intern in het domein hotlinken werkt prima (gebruik myBB en The Coppermine Gallery in combinatie). De vraag is echter voor mij of ik nog iets gemist heb of ergens een fout in veiligheid maak (de onzekere beginner :D ) "zomaarwat" is precies wat je denkt. ;)

Mijn .htaccess file (644) zit in public-html en is als volgt:


code:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
RewriteEngine on
RewriteCond %{HTTP_REFERER} !^$ [NC]
RewriteCond %{HTTP_REFERER} !^http://(www\.)?zomaarwat.com/.*$ [NC]
RewriteRule \.(gif|jpg||jpeg|png|mpg|mov|mp4|flc|avi|qt|3g|mkv|)$ - [F]
RewriteCond %{HTTP_USER_AGENT} ^msnbot [OR]
RewriteCond %{HTTP_USER_AGENT} ^tAkeOut [OR] 
RewriteCond %{HTTP_USER_AGENT} ^pcBrowser [OR] 
RewriteCond %{HTTP_USER_AGENT} ^pavuk [OR] 
RewriteCond %{HTTP_USER_AGENT} ^larbin [OR] 
RewriteCond %{HTTP_USER_AGENT} ^eCatch [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Zeus [OR]
RewriteCond %{HTTP_USER_AGENT} ^Xaldon\ WebSpider [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Widow [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Wget [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Website\ eXtractor [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Website\ Quester [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Web\ Sucker [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Web\ Image\ Collector [OR] 
RewriteCond %{HTTP_USER_AGENT} ^WebZIP [OR] 
RewriteCond %{HTTP_USER_AGENT} ^WebWhacker [OR] 
RewriteCond %{HTTP_USER_AGENT} ^WebStripper [OR] 
RewriteCond %{HTTP_USER_AGENT} ^WebSauger [OR] 
RewriteCond %{HTTP_USER_AGENT} ^WebReaper [OR] 
RewriteCond %{HTTP_USER_AGENT} ^WebLeacher [OR] 
RewriteCond %{HTTP_USER_AGENT} ^WebGo\ IS [OR] 
RewriteCond %{HTTP_USER_AGENT} ^WebFetch [OR] 
RewriteCond %{HTTP_USER_AGENT} ^WebCopier [OR] 
RewriteCond %{HTTP_USER_AGENT} ^WebAuto [OR] 
RewriteCond %{HTTP_USER_AGENT} ^WWWOFFLE [OR] 
RewriteCond %{HTTP_USER_AGENT} ^VoidEYE [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Teleport\ Pro [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Surfbot [OR] 
RewriteCond %{HTTP_USER_AGENT} ^SuperHTTP [OR] 
RewriteCond %{HTTP_USER_AGENT} ^SuperBot [OR] 
RewriteCond %{HTTP_USER_AGENT} ^SmartDownload [OR] 
RewriteCond %{HTTP_USER_AGENT} ^SiteSnagger [OR] 
RewriteCond %{HTTP_USER_AGENT} ^RealDownload [OR] 
RewriteCond %{HTTP_USER_AGENT} ^ReGet [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Papa\ Foto [OR] 
RewriteCond %{HTTP_USER_AGENT} ^PageGrabber [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Offline\ Navigator [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Offline\ Explorer [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Octopus [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Net\ Vampire [OR] 
RewriteCond %{HTTP_USER_AGENT} ^NetZIP [OR] 
RewriteCond %{HTTP_USER_AGENT} ^NetSpider [OR] 
RewriteCond %{HTTP_USER_AGENT} ^NetAnts [OR] 
RewriteCond %{HTTP_USER_AGENT} ^NearSite [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Navroad [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Mister\ PiX [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Mass\ Downloader [OR] 
RewriteCond %{HTTP_USER_AGENT} ^MIDown\ tool [OR] 
RewriteCond %{HTTP_USER_AGENT} ^LeechFTP [OR] 
RewriteCond %{HTTP_USER_AGENT} ^JetCar [OR] 
RewriteCond %{HTTP_USER_AGENT} ^JOC\ Web\ Spider [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Internet\ Ninja [OR] 
RewriteCond %{HTTP_USER_AGENT} ^InterGET [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Image\ Sucker [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Image\ Stripper [OR] 
RewriteCond %{HTTP_USER_AGENT} ^HMView [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Grafula [OR] 
RewriteCond %{HTTP_USER_AGENT} ^GrabNet [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Go-Ahead-Got-It [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Go!Zilla [OR] 
RewriteCond %{HTTP_USER_AGENT} ^GetWeb! [OR] 
RewriteCond %{HTTP_USER_AGENT} ^GetRight [OR] 
RewriteCond %{HTTP_USER_AGENT} ^FlashGet [OR] 
RewriteCond %{HTTP_USER_AGENT} ^EyeNetIE [OR] 
RewriteCond %{HTTP_USER_AGENT} ^ExtractorPro [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Express\ WebPictures [OR] 
RewriteCond %{HTTP_USER_AGENT} ^EmailWolf [OR] 
RewriteCond %{HTTP_USER_AGENT} ^EmailSiphon [OR] 
RewriteCond %{HTTP_USER_AGENT} ^EirGrabber [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Download\ Demon [OR] 
RewriteCond %{HTTP_USER_AGENT} ^DISCo [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Custo [OR] 
RewriteCond %{HTTP_USER_AGENT} ^ChinaClaw [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Bot\ mailto:craftbot@yahoo.com [OR] 
RewriteCond %{HTTP_USER_AGENT} ^BlackWidow [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Slurp [OR]
RewriteCond %{HTTP_USER_AGENT} ^Indy\ Library [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^HTTrack [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^Googlebot [OR]
RewriteCond %{HTTP_USER_AGENT} ^AltaVista
RewriteRule ^.*$ "http\:\/\/zomaarwat\.com" [R=301,L]


En mijn robots.txt (644) ook in public_html en als volgt:

aangepast naar gelang tips

code:
1
2
User-Agent: *
Disallow: /


De sitemap is via xml-sitemap.com gegenereerd en het bestand is ook op 644 ingesteld.
Voor zover ik kan nagaan werkt alles, heb alles intern getest qua linken en ook www.sitesubmit.ca testje gebruikt.

Het doel is gewoon dat de site niet doorzocht/geïndexeerd wordt door de zoekmachines/bots en lekker onbekend blijft, en dat materiaal niet buiten het zomaarwat.com domein gelinkt kan worden.

[ Voor 7% gewijzigd door SkyStreaker op 29-09-2013 14:28 ]

Fractal Define R6 | ASRock B650M PG Lightning | AMD 8700G | G.Skill Flare X5 6000-CL30-38-38-96-134 (10ns) 2x16GB | Noctua NH-D15 Black | Seasonic Focus PX-750 Platinum | 4x2TB Kingston Fury NVMe | Shitty Gigabyte 24" Curved TN ding


Verwijderd

Onthoud wel goed: robots.txt kan genegeerd worden door sommige bots.

  • RaZ
  • Registratie: November 2000
  • Niet online

RaZ

Funky Cold Medina

Die robots.txt is wel... wat enigsinds overbodige regels. De laatste disallow zou namelijk ook de enige hoeven zijn.

Maar als je niet gevonden wil worden, waarom uberhaupt met een sitemap aan de gang gaan, want die is er namelijk voor om te zorgen dat je sneller gevonden wordt.

En zoals Kev0 zegt, niet elke spider houdt zich aan de robots.txt. En als je echt niet gevonden wil worden, stuur dan geen 200 OK header mee, maar een 5xx. Dan denkt een spider namelijk dat er een foutmelding staat, en wordt ie niet geindexeerd. Gebruikers met een browser zien dat verschil toch niet ;)

Edit:
En voor de zekerheid natuurlijk de juiste meta-tags gebruiken:
HTML:
1
<meta name="robots" content="noindex noarchive nofollow" >

[ Voor 11% gewijzigd door RaZ op 29-09-2013 14:22 ]

Ey!! Macarena \o/


  • SkyStreaker
  • Registratie: Juni 2002
  • Laatst online: 21:59
Ik zal eens even kijken hoe ik dat voor elkaar ga krijgen... Die headers zeggen mij even niet zoveel :)

* waar zet ik die meta? in de index.html? (of index.php)

Edit: een index.html aangemaakt en in DirectAdmin een permanente redirect gemaakt van index.html naar de index.php - lijkt mij voldoende? (wou eerst via httpd.conf doen, maar daar heb ik geen toegang voor, door mijn hosttype)

Nu nog ff kijken hoe ik die headers doe.

Ik heb dit gevonden, maar ik heb geen idee hoe ik dit moet toepassen :/

http://stackoverflow.com/...r-error-from-a-php-script

of moet ik het hierin zoeken

http://www.javascriptkit....ccess2.shtml#.Ukhi6oa9WjI

[ Voor 90% gewijzigd door SkyStreaker op 29-09-2013 19:39 ]

Fractal Define R6 | ASRock B650M PG Lightning | AMD 8700G | G.Skill Flare X5 6000-CL30-38-38-96-134 (10ns) 2x16GB | Noctua NH-D15 Black | Seasonic Focus PX-750 Platinum | 4x2TB Kingston Fury NVMe | Shitty Gigabyte 24" Curved TN ding