Wenn wir Python-Crawler zum Sammeln von Informationen verwenden, werden wir häufig blockiert. Manchmal werden wir darauf hingewiesen, dass der Zugriff zu häufig erfolgt, und manchmal werden einige Fehlercodes zurückgegeben. Der Grund für diese Situation ist, dass die Crawler-IP von der Website erkannt und eingeschränkt wird. Woher weiß die Website, dass der Crawler Informationen sammelt?
1.IP-Erkennung
Die Website erkennt die Geschwindigkeit des Benutzer-IP-Zugriffs, wenn die Zugriffsgeschwindigkeit den festgelegten Schwellenwert erreicht, wird die Einschränkung geöffnet, die IP wird blockiert, der Crawler wird angehalten und es werden keine Daten mehr abgerufen. Um die IP-Erkennung zu bewältigen, können Sie Proxy-IP verwenden und eine große Anzahl von IP-Adressen wechseln, um Einschränkungen zu durchbrechen.
2. Erkennung des Bestätigungscodes
Legen Sie Beschränkungen für Anmeldebestätigungscodes fest und legen Sie Beschränkungen für Bestätigungscodes für diejenigen fest, die zu schnell zugreifen. Wenn Sie nicht den korrekten Bestätigungscode eingeben, können Sie keine erneuten Informationen erhalten. Da Crawler andere Tools zur Identifizierung von Verifizierungscodes verwenden können, vertiefen Websites die Schwierigkeit von Verifizierungscodes weiter, von gewöhnlichen Verifizierungscodes für die reine Datenrecherche bis hin zu Hybrid-Verifizierungscodes oder gleitenden Verifizierungscodes, Bildverifizierungscodes usw.
3. Header-Erkennung anfordern
Der Crawler ist kein Benutzer und weist beim Zugriff keine weiteren Eigenschaften auf. Die Website kann erkennen, ob die andere Partei ein Benutzer oder ein Crawler ist, indem sie den Anforderungsheader des Crawlers erkennt.
4.Cookie-Erkennung
Der Browser speichert Cookies, sodass die Website durch die Erkennung von Cookies erkennen kann, ob Sie ein echter Benutzer sind. Wenn der Crawler nicht gut getarnt ist, wird ein eingeschränkter Zugriff ausgelöst.
Mehr
- Welche IP-Adresse verwendet das TikTok-Proxy - Konto?
- Pflege eines TikTok-Kontos: Auswahl und Optimierung einer Netzwerkumgebung und eines IP-Proxies
- Ausgeglichene Verteilung von IP-Proxy - Streams: Machen Sie das Netzwerk glatt wie Seide
- Benutzeragenten für die Preiserfassung
- Datenerfassung zur Verbesserung des Verkaufs