Spiders & Web Crawlers: Hvad du behøver at vide for at beskytte Website Data
Edderkopper, der også omtales som "web crawlere" søger på internettet og ikke alle er venlige i deres hensigt.
Spammere Spider Websites at indsamle oplysninger
Google, Yahoo!
og andre søgemaskiner er ikke de eneste, der er interesseret i at gennemgå websites - det er også svindlere og spammere.
Edderkopper og andre automatiserede værktøjer bruges af spammere til at finde e-mail-adresser (på internettet er denne praksis ofte omtalt som "høstning") på websteder og derefter bruge dem til at oprette spamlister.
Edderkopper er også et værktøj, der bruges af søgemaskiner til at finde ud af mere information om dit websted, men efterladt ukontrolleret, kan et websted uden instruktioner (eller "tilladelser") om, hvordan man gennemgår dit websted, udgøre store informationssikkerhedsrisici. Spiders rejser ved at følge links, og de er meget dygtige til at finde links til databaser, programfiler og andre oplysninger, som du måske ikke vil have adgang til.
Webmastere kan se logfiler for at se, hvilke edderkopper og andre robotter har besøgt deres websteder. Disse oplysninger hjælper webmastere med at vide, hvem der indekserer deres websted, og hvor ofte.
Disse oplysninger er nyttige, fordi det giver webmastere mulighed for at finjustere deres SEO og opdatere robot.txt-filer for at forbyde visse robotter at krybe deres websted i fremtiden.
Tips til beskyttelse af dit websted fra uønskede robotkrydsere
Der er en ret simpel måde at holde uønskede crawlere ud af din hjemmeside. Selvom du ikke er bekymret for ondsindede edderkopper, der gennemsøger dit websted (forvirrende e-mail-adresse beskytter dig ikke for de fleste crawlere), skal du stadig give søgemaskinerne vigtige instruktioner.
Alle websteder skal have en fil placeret i rodmappen kaldet en robots.txt-fil. Denne fil giver dig mulighed for at instruere webcrawlere, hvor du vil have dem til at kigge på indekssider (medmindre andet er angivet i en bestemt sides meta-data, der ikke er indekseret), hvis de er en søgemaskine.
Ligesom du kan fortælle ønskede crawlere, hvor du vil have dem til at surfe, kan du også fortælle dem, hvor de måske ikke går, og endda blokere specifikke crawlere fra hele dit websted.
Det er vigtigt at huske på, at en godt sammensat robots.txt-fil vil have stor værdi for søgemaskiner og kan endda være et centralt element i forbedringen af din websteds ydeevne, men nogle robotkrydsere vil stadig ignorere dine instruktioner. Af denne grund er det vigtigt at holde al din software, plugins og apps opdateret til enhver tid.
Relaterede artikler og oplysninger
På grund af forekomsten af informationshøsting, der blev brugt til falske (spam) formål, blev lovgivningen vedtaget i 2003 for at gøre visse former for praksis ulovlig. Disse forbrugerbeskyttelseslove falder ind under CAN-SPAM Act fra 2003.
Det er vigtigt, at du tager dig tid til at læse om CAN-SPAM Act, hvis din virksomhed engagerer sig i massemail eller informationshøst.
Du kan finde ud af mere om anti-spam love og hvordan du håndterer spammere, og hvad du som virksomhedsejer måske ikke gør ved at læse følgende artikler:
- CAN-SPAM Act 2003
- CAN-SPAM Act Regler for nonprofits
- 5 CAN-SPAM-regler Small Business Owners skal forstå