Verschiedene Websites verfügen über unterschiedliche Anti-Crawler-Strategien und unterschiedliche Einschränkungen für Crawler. Im Allgemeinen kann man sie in die folgenden drei Kategorien einteilen:


1. Stellen Sie ein, dass nicht zur Webseite zurückgekehrt wird oder dass die Rückkehrzeit verzögert wird

Die herkömmliche Anti-Crawler-Methode besteht darin, die Webseite nicht zurückzugeben, das heißt, der Crawler sendet die Anfrage an die entsprechende Website und die Website gibt eine 404-Seite zurück, was darauf hinweist, dass der Server die Informationen nicht normal bereitstellen kann oder nicht antwortet ; Die Website gibt möglicherweise auch längere Zeit keine Daten zurück, was bedeutet, dass der Crawler verboten ist.


2. Die zurückgegebene Webseite ist nicht die Zielwebseite

Neben der Nicht-Rückgabe von Seiten gibt es auch Crawler, die Nicht-Zielseiten zurückgeben, d. h. die Website gibt falsche Daten zurück, z. B. die Rückgabe einer leeren Seite oder die Rückgabe derselben Seite beim Crawlen mehrerer Seiten. Wenn Ihr Crawler reibungslos läuft, können Sie gerne andere Dinge tun. Nach einer halben Stunde Suche werden Sie feststellen, dass die Suchergebnisse für jede Seite gleich sind, was eine gefälschte Website darstellt.


Beispielsweise weichen die online markierten Preise auf der Tarifseite von Qunar.com vom HTML-Quellcode ab. Beispielsweise beträgt der online markierte Ticketpreis 530 Yuan und der Ticketpreis im HTML-Quellcode beträgt 538 Yuan. Neben Qunar.com verwenden auch Maoyan Movies und Douyu Live diese Methode, und die erhobenen Zahlen unterscheiden sich von den tatsächlichen Zahlen.


3. Erhöhen Sie die Zugangsschwierigkeiten

Die Website wird außerdem crawlersicher sein, indem die Datenbeschaffung erschwert wird. Im Allgemeinen können beim Anmelden die Daten angezeigt und der Bestätigungscode festgelegt werden. Um Crawler einzuschränken, werden Sie möglicherweise auf Websites aufgefordert, sich anzumelden und einen Bestätigungscode für den Zugriff einzugeben, unabhängig davon, ob Sie ein echter Benutzer sind. Um beispielsweise das automatische Erfassen von Tickets einzuschränken, hat 12306 eine strenge Verifizierungscode-Funktion eingeführt, die von den Benutzern verlangt, korrekt zwischen 8 Bildern auszuwählen.


Diese drei Situationen kommen in der Reptilienwelt sehr häufig vor. Crawler müssen basierend auf unterschiedlichen tatsächlichen Situationen unterschiedliche Anti-Crawling-Strategien entwickeln, um reibungslos zu arbeiten.

[email protected]