automatisch via apache crawlers blokkeren voor subdomeinen - Linux en overige clients

woensdag 5 november 2014 16:38

Acties:

Topicstarter

Ik zoek een manier om het volgende te bereiken:

- ik heb een server met directadmin welke zelf domeinen aanmaakt via een extern script/api, deze worden opgeslagen op de locatie /home/USERNAME/domains/DOMAINNAME/public_html

Nu kunnen dit 2 verschillende soorten 'domeinen' zijn namelijk:
- een eigen domein
of
- een tijdelijk 'test' domein in vorm van een subdomein

Wat ik nu wil is dat zodra er (automatisch) een tijdelijk test subdomein wordt aangemaakt dat voor dit test domein de crawlers/robots automatisch worden geblokkeerd. maar dit mag weer niet bij de losse domeinen.

Het tijdelijk test domein is altijd in de trend van; ?????.eendomein.nl, waarbij testdomain.nl altijd hetzelfde is, de ????? wordt telkens random gegenereerd.

Heeft iemand een idee hoe ik dus voor deze hele server (centos6) een globale manier kan vinden dat crawlers/robots/spyders/indexers standaard worden geblokkeerd bij subdomeinen met ?????.eendomein.nl
Dus deze test subdomeinen mogen niet vindenbaar geindexeerd worden in zoekmachines.

Ik dacht zelf aan een toevoeging in de httpd.conf, maar geen idee hoe en of dit zou werken.

Het achteraf toevoegen van een .htaccess bestand in de website map of wijziging in de website code is eigenlijk geen optie.

Iemand een idee?

[ Voor 3% gewijzigd door rob3rt op 05-11-2014 16:41 ]

woensdag 5 november 2014 17:04

Acties:

Mijzelf

Als de domeinen wel voor ander verkeer beschikbaar moeten zijn, is denk ik robots.txt je enige optie.

woensdag 5 november 2014 17:07

Acties:

Nielsvr

Kan je de aanvraag voor *.jouwdomein.nl/robots.txt niet via een rewrite naar een script sturen die afvangt wat voor robots.txt hij moet weergeven. Bij subdomeinen doe je een disallow op all.

woensdag 5 november 2014 17:14

Acties:

mcDavid

Kun je dat script dat de domeinnamen aanmaakt niet gewoon aanpassen zodat deze direct een robots.txt aanmaakt?

woensdag 5 november 2014 22:10

Acties:

Hero of Time

Moderator LNX

There is only one Legend

rob3rt, zoals je ziet is de oplossing best simpel te bedenken. Ik mis eigenlijk al je vooronderzoek in je TS. Een simpele Google query naar 'block crawlers website' geeft je duizenden resultaten. In de eerste 3 van mijn resultaten wordt er al gesproken over robots.txt. Hoe komt het dat je dat zelf niet hebt gevonden? Heb je überhaupt wel gezocht voordat je dit topic openende?

Commandline FTW | Tweakt met mate

donderdag 6 november 2014 09:01

Acties:

himlims_

🐧 Linux HOoligan

is niet nieuw; http://gathering.tweakers...ord=blokkeren+subdomeinen
of /23 de plek is, laat ik in midden

ook in nld; https://support.google.com/webmasters/answer/6062608?hl=nl

[ Voor 22% gewijzigd door himlims_ op 06-11-2014 09:01 ]

⭐Game Profiles: 🕹️Steam - 🎮PSN - 🇪🇦 GoT_Hollandhards

donderdag 6 november 2014 11:54

Acties:

rob3rt

Topicstarter

@Hero of Time,

Nee is niet zo simpel, alle hierboven aangeboden oplossingen zijn niet mogelijk of zijn niet werkbaar, dat was ook de reden dat ik dit heir vroeg, ik had uiteraard al gezocht.

Maar om het nog eens duidelijker te trachten te maken.
Het is een DirectAdmin (DA) server die automatisch (lege) pakketten aanmaakt, deze DA server weet niet welke wel en welke weer niet beschikbaar moet zijn tijdens of na het aanmaken.

De DA api zelf heeft verders geen opties om robots.txt achteraf aan te maken of te wijzigen, ik kan dus met aanmaken van een nieuw pakket (wat volledig automatisch gebeurd) niet nog eens een robots.txt aanmaken of wijzigen waarin staat dat dit pakket wel/niet mag worden gecrawled.

Daarnaast draait het hoofddomein (van het test domein) zelf niet op deze machine en zijn de test subdomeinen ook als een volledig eigen domein los pakket aangemaakt, dus blokkeren op het hoofddomein zelf heeft ook geen effect... Elk subdomein is dus een eigen en apart domein op deze server.

De bedoeling is ook dat in de website code zelf verders geen wijzigingen worden aangebracht door mij, het moet dus op server level geregeld worden.

Als het geen test subdomein betreft dan dient de website trouwens wel normaal te worden bezocht door deze crawlers.

Het is dus zeer zeker niet zo eenvoudig als men schrijft, alleen het aangeven dat je niet wilt worden geindexeert is het probleem niet, hoe dat werkt is mij wel bekend.

Het probleem zit hem erin dat dit op server level gedaan dient te worden en dan ook alleen maar bij test subdomeinen, mijn voorkeur dus via apache config zelf.

Plaatsen van robots.txt bij de subdomeinen is absoluut geen werkbare oplossing, deze had ik inderdaad zelf ook al gevonden...

donderdag 6 november 2014 13:16

Acties:

Hero of Time

Moderator LNX

There is only one Legend

Had dan de moeite genomen om dat te melden in je TS. Nu kwam je over als een lui persoon die geen vooronderzoek heeft gedaan. En je had ook geen antwoorden gekregen waar je niets aan hebt omdat je 't zelf al geprobeerd had.

Werken met robots.txt is overigens wel je oplossing. Wil je 't voor test domeinen hebben, moet je eens kijken naar de <File> optie in de Apache configuratie. Daarmee kan je precies doen wat je wilt.

Commandline FTW | Tweakt met mate

donderdag 6 november 2014 13:51

Acties:

Paultje3181

Heb je shell-access of de mogelijkheid om het script wat aanmaakt aan te passen? Want dan zou je nog iets kunnen bedenken om in het aanmaakscript code toe te voegen als "echo "bla" > ????.testdomein.nl/robots.txt

donderdag 6 november 2014 14:07

Acties:

rob3rt

Topicstarter

Heb shell access enkel ik wil het zo simpel mogelijk houden.

Heb op dit moment de volgende 'oplossing bedacht'

- ik maak in de DA default template map 2 extra bestanden aan namelijk een .htaccess en een tmprobots.txt
Alle bestanden in de default template map worden door DA automatisch gekopieerd naar de public_html bij het aanmaken van een nieuw pakket.

In de tmprobots.txt zet ik de crawler/robots code neer

In de .htaccess maak ik een mod_rewrite met daarin als de domeinnaam het test subdomein bevast ik de url voor robots.txt rewrite naar tmprobots.txt

Als het goed is zal bij de test domeinen dan de tmprobots.txt worden gelezen door de crawlers, voor andere domeinen kan ie dan geen robots.txt vinden en wordt ie normaal geindexeerd.

Of het in de praktijk ook werkt weet ik nog niet.