Este uimitor ce poate face un mic fisier text, sau cum poate rupe un website. Daca aveti o linie sau doua gresite in fisierul robots.txt, s-ar putea sa le spui robotilor motoarelor de cautare sa nu acceseze cu crawlere si sa indexeze site-ul.. ceea ce inseamna ca site-ul nu va fi afisat in motoarele de cautare.
Din fericire, este usor de verificat si de rezolvat problema. In acest articol veti afla mai multe informatii despre ceea ce inseamna robots.txt, cum sa verifici fisierul, si cum iti poti imbunatatii instuctiunile pentru motoarele de cautare.
Ce este un robots.txt ?
Este un fisier in radacina site-ului care poate permite sau restrictiona robotii motoarelor de cautare sa acceseze cu crawlere paginile site-ului.
Gandeste-te la motoarele de cautare ca la o biblioteca mare cu toate paginile site-urilor din intreaga lume. Google, Yahoo etc, trimit paianjeni (spiders – cunoscute ca crawlere sau roboti) pentru a gasi pagini noi sau actualizari pentru a adauga la indexul lor. Primul lucru pe care il cauta atunci cand ajung pe site, este fisierul robots.txt. In fisierul robots, arati robotilor care dintre pagini vrei sau nu vrei sa le citeasca (acceseze cu crawlere).
Vezi si: al treilea update Google Page Rank
Tineti minte ca exista o diferenta intre “crawl” si “index”. Motorul de cautare poate accesa cu crawl (citi) o pagina fara sa o indexeze (listarea in rezultatele cautarii), si invers. Totul depinde de instructiunile puse de tine in fisierul robots.txt si robots meta tags.
Am nevoie de un fisier robots.txt?
Daca spider-ul motorului de cautare nu gaseste un fisier robots.txt pentru site-ul tau, acesta va accesa cu crawlere si va indexa toate paginile site-ului (cu exceptia cazului in care ati pus in aplicare robots meta tags cu alte instructiuni).
“Daca vrei ca motoarele de cautare sa indexeze tot ce ai pe site, nu ai nevoie de un fisier robots.txt (nici macar unul gol).”
Cu toate acestea, in cazul in care nu ai un fisier robots.txt, serverele vor returna eroarea 404 de fiecare data cand un robot incearca sa acceseze un fisier robots.txt. Pentru a preveni mesajul de eroare “file not found” dat de jurnalele serverului, poti crea un fisier gol robots.txt.
Acest lucru nu este intotdeauna ideal, si dupa ce vei citit acest articol sunt sigur ca vei gasi cel putin o idee pentru a imbunatatii fisierul robots.txt.
La ce foloseste robots.txt?
Printre alte lucru, fisierul robots.txt poate ajuta:
1. daca ai pagini sau directoare pe site care nu ar trebui sa apara in SERPs (Search engine result pages).
2. daca doresti ca paginile duplicat sa fie ignorate, de exemplu daca site-ul tau CMS genereaza mai mult de un URL pentru acelas continut
3. daca nu doresti ca rezultatele cautarii interne pe paginile site-ului sa fie indexate
4. pentru a spune motoarelor de cautare unde este sitemap-ul
5. pentru a spune motoarelor de cautare care versiune sa o indexeze, daca de exemplu ai o versiune HTML si o versiune PDF a continutului
De retinut:
“..un fisier robots.txt este ca un mesaj de avertizare “Please, do not enter” pe o usa descuiata – de exemplu, nu va impiedica hotii sa intre dar baietii buni nu vor deschide usa”.
Cum functioneaza robots.txt ?
Inainte ca un robot al unui motor de cautare sa acceseze cu crawlere site-ul, acesta se va uita prima data dupa fisierul robots.txt pentru a afla unde doresti sa mearga.
Stiai ca..in contul tau de Google Analystics, o vizita de la un robot este adaugata la statisticile generale. Pentru a vedea doar vizitele umare (reale), ai posibilitatea sa aplici un filtru pentru a exclude traficul de la roboti.
Mai jos gasesti 3 lucruri care trebuiesc retinute:
1. Robotii pot ignora fisierul robots.txt. Robotii de scanare malware care verifica site-ul de vulnerabilitati ale securitatii sau de exploatarea adresei de mail folosita de autorii de spam, nu le vor pasa de indicatiile voastre si vor trece de acest fisier.
Vezi si : Ce este SEO?
2. Fisierul robots.txt este public. Orice persoana poate vedea ce zone ale site-ului nu vrei sa le vada robotii.
3. Motoarele de cautare pot indexa in continuare (dar fara a accesa cu crawlere) o pagina pe care ai pus interdictie, daca aceasta este legata ( link) de catre alt site. In rezultatele cautarii, se va afisa doar URL_ul, dar de obicei fara titlul sau fragmente de informatii. In schimb, face uz de robots meta tag pentru acea pagina.
Acum mergi pe site-ul propriu si verifica daca ai fisierul robots.txt. Adauga /robots.txt dupa numele domeniului. Ar trebui sa arata de genu: https://numele site-ului.com/robots.txt
Daca fisierul robots.txt spune asta, atunci ai probleme:
User - agent: * Disallow: /
Cum se creeaza un fisier robots.txt?
Daca nu ai un fisier robots.txt, ar trebui sa creezi unul foarte repede:
1. creaza un fisier text normal si salveaza-l cu numele robots.txt. Foloseste litere mici pentru denumire: robots.txt (nu Robots.TXT)
2. incarca fisierul in directorul radacina al site-ului, nu in vre-un subdirector.
3. daca totul este in regula, ar trebui sa vezi fisierul robots.txt la adresa : https://nume site.com/robots.txt
Retine: Daca folosesti subdomenii, trebuie sa creezi fisiere robots.txt separat pentru fiecare dintre subdomenii.
Ce sa scriu in fisierul robots.txt?
Multi proprietari de site-uri nu sunt de acord cu privire la ceea ce ar trebui sau nu ar trebui sa puna in fisierul robots.txt, si depinde de tine ceea ce crezi ca functioneaza cel mai bine pentru site-ul propriu.
Avertisment: robots.txt nu este destinat sa se ocupe cu securitatea site-ului.
Se recomanda ca locatia zonei admin, si alte zone private de pe site, sa nu fie incluse in robots.txt .
Daca intr-adevar doresti sa blochezi robotii sa acceseze un continut privat, ar trebui sa te uiti la alte masuri de securitate adecvate pentru aceasta (.htaccess si alte metode).
Utilizeaza robots.txt ca un ghid pentru roboti, dar asta va depinde de fiecare robot daca va onora instructiunile.
Ce directive putem folosi?
Pentru inceput, deschide unele fisiere robots.txt si foloseste-le ca referinta in timp ce continui sa citesti. Mergi inainte, deschide un fisier robots.txt la unul din competitorii tai, sau la cineva cu site care foloseste acelasi CMS ca tine (trebuie doar sa adaugi /robots.txt dupa domeniu)Pentru a te ajuta, mai jos sunt cateva exemple:
Google’s robot.txt file
Yoast’s robot.txt file
Ebay’s robot.txt file
SEO beginer’s robot.txt file
WPmods’ robot.txt file
Joomla’s robot.txt file
WordPress’ robot.txt file
Drupal’s robot.txt file
Wikimedia’s robot.txt file
Acum vom arunca o privire la diferite lini pe care le poti avea in fisierul robots.txt:
User-agent:
Aceasta este linia care va definii cu care robot sa vorbesti. Este ca si cum ai spune salut la robot:
“salutare roboteilor”
User-agent: *
“Salutare Google robot”
User-agent: Googlebot
“salutare Yahoo! robot”
User-agent: Slurp
Pentru diferite site-uri Google puteti vedea lista. Robotstxt.org au o baza de date (Robots Database), dar nu stiu cand a fost ultima actualizare.
Sfaturi: Puteti afla care roboti acceseaza site-ul cu crawlere, prin cautarea prin server logs, si apoi poti folosi informatiile pentru a aduga diferite indicatii user-agent in fisierul robots.txt.
Nu toti robotii/user-agents inteleg toate directivele. In Robots Exclusion Protocol, directiva Disallow: a fost singura optiune oficiala, iar mai tarziu includerea directivei Sitemap:
In lista de mai jos vei gasi cateva directive non-standard dar utile. Google si Bing urmeaza cele mai multe dintre ele, dar din pacate nu si alti roboti vor intelege si vor urma acestea.
Pentru fiecare din urmatoarele directive trebuie sa ai prima linie user-agent. Este la fel cum ai spune “salut Google”, si apoi urmeaza instructiunile specifice pentru Google.
Acum, sa le spunem robotilor ce vrem sa faca:
Disallow:
Acest lucru spune robotilor ceea ce nu trebuie sa acceseze cu crawlere de pe site-ul tau:
“Salut roboteilor, nu accesati cu crawlere nimic de pe site-ul meu”
User-agent: *
Disallow: /
“Salut robotelule Google image, nu imi accesa cu crawlere folderul images (dar imi poti accesa orice altceva)”
User-agent: *
Googlebot-Image Disallow: /images/
NOTA: multi proprietari de site-uri interzic accesarea directorului cu imagini, dar acesta poate fi foarte esential pentru indexarea site-ului (gandeste-te la Google Image search). Asigurati-va doar sa numiti imaginile intr-un mod corespunzator (numele fisierului ar trebui sa reflecte continutul imaginii).
Allow:
Spune robotilor ceea ce vrei sa acceseze cu crawlere pe site:
“Salut roboteilor, vreau sa indexati tot site-ul”
User-agent: *
Allow: /
NOTA: Daca asta este singura linie pe care o ai in fisierul robots.txt, poti la fel de simplu sa stergi fisierul. Daca nu exista nici un robots.txt, motoarele de cautare ca indexa tot site-ul.
“Salut roboteilor, nu vreau sa accesati cu crawlere nimic din /things/folder, exceptie fisierul /things/awesomestuff.html”
User-agent: *
Disallow: /things/
Allow: /things/awesomestuff.html
“Salut roboteilor, nu accesati nu crawlere nimic de pe site-ul meu..dar daca este robotul Google, atunci am o instructiune speciala pentru tine: ai voie sa sa accesezi toate paginile site-ului”
User-agent: *
Disallow: /
User-agent:Googlebot
Allow: /
* (Asterisk / wildcard)
Cu simbolul *, ii spui robotului sa marcheze orice numar pentru orice caractere. Foarte folositor de exemplu cand nu vrei ca rezultatele cautarii interne sa fie indexate:
User-agent: *
Disallow: */search.php?*
Teoretic, nu ai nevoie de * la final, ca robotii sa iti asume in continuare URL-ul (daca nu ai un simbol $ la final). Cu toate acestea, Google se foloseste * la final, asa ca mai bine sa fi in siguranta decat sa regreti.
“Salut robotei, nu accesati nici un URL care contine cuvantul <contact>”
User-agent: *
Disallow: *contact*
Acest lucru ar interzice de exemplu:
/you-can-contact-us-here/
/contact/form.html
/company/contact-us.html
$ (Dollar sign / ends with)
Semnul $ spune robotilor ca acela este finalul url-ului.
“Salutare robotel Google, nu accesa nici un fisier .pdf de pe site”
User-agent: Google-bot
Disallow: *.pdf$
“Salutare roboteilor, in /help/category am cateva fisiere are au terminatia .php. Nu accesati niciunul dintre ele. Dar puteti accesa orice alt lucru din category.”
User-agent: *
Disallow: /help/*.php$
# (Hash / comments)
Poti adauga un comentariu dupa simbolul #, fie la inceputul unei linii sau dupa o directiva. Acest lucru este util daca vrei sa fie clar pentru tine, ce reprezinta fiecare sectiune:
# Instructions for all robots
User-agent: *
Disallow: /archives/ # disallow crawling of the archives category
Sitemap:
Sitemap: https://www.yourwebsite.com/sitemap.xml
Dupa cum poti vedea, directiva Sitemap: nu are nevoie de linia user-agent. Nu conteaza unde plasati linia Sitemap: in fisier, dar de preferat ca aceasta sa fie prima linie sau ultima.
Crawl-Delay: and Request-rate: and Visit-time:
Aceste directive nu sunt utilizate in mod obijnuit dar totusi merita mentionate.
Crawl-Delay:
Aceasta directiva solicita robotelului sa astepte cateva secunde de fiecare data cand acceseaza cu crawlere pagina de pe site.
“Salut Yahoo! robot, asteapta 5 secunde inainte sa incepi”
User-agent: Slurp
Crawl-delay: 5
NOTA: Google recomanda sa setezi viteza de accesare cu crawlere prin Google Webmaster Tools.
Request-rate:
Poti spune robotului cate pagini vrei sa acceseze intr-o anumita perioada definita de secunde. Primul numar reprezinta paginile, al doilea reprezinta secundele.
User-agent: *
Request-rate: 1/5 # load 1 page per 5 seconds
Visit-time:
Este ca orele de deschidere, atunci cand doresti ca robotii sa viziteze site-ul. Acesta lucru poate fi foarte util daca nu doresti ca robotii sa viziteze site-ul in orele de varf (atunci cand aveti o multime de vizite umane).
User-agent: *
Visit-time: 2100-0500 # only visit between 21:00 (9PM) and 05:00 (5AM) UTC (GMT)
NOTA: timpul este setat in UTC/GMT
Cum sa verificam si sa testam fisierul robots.txt?
Exista cateva instrumente gratuite, dar de preferat Google si Bings Webmaster Tools pentru o verificare a site-ului.
Google Webmaster Tools
Google Webmaster Tools este un loc unde poti verifica site-ul bazandu-te pe informatii de la Google. Gasesti o multime de instrumente si rapoarte si este complet gratuit.
Citeste: Instrumentul Google PageSpeed
Pentru a te ajuta sa creezi un fisier robots.txt, Google Webmaster Tools are un instrument generator de robots.txt (retineti ca este bazat doar pe robotii Google).
Poti verifica si testa fisierul robots.txt care il ai prin Google Webmaster Tools >> Site Configuration >> Crawler access.
Trebuie sa verifici, de asemenea, problemele gasite de Googlebot atunci cand acceseaza cu crawlere site-ul. Mergi la Google webmaster tools > diagnostics > Web Crawl. Acolo vei vedea adresele URL restrictionate de robots.txt. Poti vedea erorile sitemap-ului, erori HTTP, nofollow URL etc.
Fetch ca instrument Googlebot in Webmaster tools, te ajuta sa intelegi exact cum site-ul apare ca Googlebot. Acest lucru poate fi foarte util pentru rezolvarea problemelor din continutul site-ului sau vizibilitatea din rezultatele cautarii.
Sursa: Googlebot
Bing Webmaster Tools
La fel ca Google webmaster Tools, Bing’s Webmaster Tools este gratuit si foarte folositor pentru proprietarii site-urilor.
Mergi la Bing webmaster tools >> crawl issues. Pe langa problemele cu robots.txt, poti identifica erori HTTP, pagini infectate cu malware si multe alte lucruri care ar trebui verificate in mod regulat.
Sursa: Bing Webmaster Center Blog
Ultima actualizare 16 October 2022 by Alexandru Ionut
E mare lucru sa vezi o minune dar sa stii la ce se foloseste. Foarte detaliat articolul tau…nu are cum sa nu se descurce cineva…
Nici eu nu stiam prea multe pana nu am scris. Multumesc de feedback
Foarte detaliat tutorialul! :)
PS: in Webmasters Tools pot sa testez robots.txt dar nu-l pot si salva :))) (pt blogul pe blogspot).
multumesc de apreciere. legat de fisier, il poti crea singur. Faci un .txt si il incarci pe site.
Unde si cum modific fisierul robots.txt?
Cauta in Webmaster Tools la sectiunea Accesare cu crawlere – tester fisier robots.txt. Alta varianta ar fi sa intri in Control Panel. Dar mai ok in Webmaser Tools.
Interesant articol!
Stii cumva ce cod trebuie sa scrii in robots.txt,daca vrei sa nu fie accesate anumite linkuri care contin la sfarsit /cos?
Buna! Nu ma pricep in acest domeniu, dar sunt nevoita sa ma informez pentru site-ul meu. Care este directorul radacina in care trebuie sa salves robots.txt?
Multumesc frumos pentru raspuns!