Botok weboldalunkon, robots.txt
Weboldalunkat időnként botok látogatják. Készítőjük különféle feladattal látta el, azonban nem biztos, hogy mindegyik bot számára szeretnénk oldalunk tartalmát közölni. Amennyiben a bot együttműködő, elolvassa weboldalunk gyökérmappájában elhelyezhető robots.txt fájlunkat és aszerint látogatja oldalunkat, amit számára javasoltunk.
Fontos, a robots.txt mindössze javaslat*. A bot készítője dönti el, hogyan fog viselkedni az adott bot. Letölti és feldolgozza-e egyáltalán és ha igen, figyelembe veszi-e.
Oldalunk működése szempontjából hasznos lehet, ha az együttműködő botok számára készítünk olyan instrukciókat, amiből kiderülhet, milyen tartalmat szeretnénk az oldalon megmutatni.
Az egyszerű robots.txt fájlt bárki olvashatja. Célszerű ezért csak olyan információt beleírni, ami egyébként publikusan is megtekinthető lenne, csak erőforrás kímélés miatt jelezzük, hogy nem szeretnénk, ha látogatnák.
Admin mappa vagy admin login fájl elérhetőségét inkább korlátozzuk például .htaccess jelszavas védelemmel .
Amennyiben nem döntöttük még el, melyik botot hogyan kezelnénk, használhatunk előre összeállított listát is, mint például a https://github.com/mitchellkrogza/apache-ultimate-bad-bot-blocker/blob/master/robots.txt/robots.txt . Ez a lista jellemzően tiltásokat tartalmaz, amennyiben az adott bot figyelembe veszi, kevesebb erőforrást igényel az oldalunktól távol tartani.
cPanel és CRON, időzített frissítés
Ha nem szeretnénk időről időre a változásait figyelni, beállíthatjuk például azt, hogy naponta kétszer letöltse és felülírja meglévő robots.txt-nket CRON ütemezett folyamatként az alábbi példához hasonlóan, ahol a cpanelfelhasznalonev helyére saját cpaneles felhasználónevünket szükséges írnunk, a példában pedig azzal a feltételezéssel éltünk, hogy weboldalunk a public_html mappából működik. Amennyiben nem így van, azt is az aktuálisnak megfelelően szükséges módosítani.
23 0,12 * * * /usr/bin/wget https://raw.githubusercontent.com/mitchellkrogza/apache-ultimate-bad-bot-blocker/refs/heads/master/robots.txt/robots.txt -O /home/cpanelfelhasznalonev/robots.txt.temp && /usr/bin/cat /home/cpanelfelhasznalonev/robots.txt.temp > /home/cpanelfelhasznalonev/public_html/robots.txt
Fontos, hogy ezzel felülírjuk a meglévő robots.txt fájlt. Ha korábban már állítottunk be a robotok számára jelzéseket, akkor ettől szofisztikáltabb megoldásra lesz szükségünk. Javasoljuk, hogy ez esetben kérje rendszergazdája vagy weboldal készítője segítségét!
A cPanel Cron beállításaihoz itt írtunk tanácsokat: cpanel cron tanácsok.
*Forrás: https://www.robotstxt.org/robotstxt.html
2025.09.26

Előző bejegyzés