Wenn wir Python-Crawler zum Sammeln von Informationen verwenden, werden wir häufig blockiert. Manchmal werden wir darauf hingewiesen, dass der Zugriff zu häufig erfolgt, und manchmal werden einige Fehlercodes zurückgegeben. Der Grund für diese Situation ist, dass die Crawler-IP von der Website erkannt und eingeschränkt wird. Woher weiß die Website, dass der Crawler Informationen sammelt?


1.IP-Erkennung

Die Website erkennt die Geschwindigkeit des Benutzer-IP-Zugriffs, wenn die Zugriffsgeschwindigkeit den festgelegten Schwellenwert erreicht, wird die Einschränkung geöffnet, die IP wird blockiert, der Crawler wird angehalten und es werden keine Daten mehr abgerufen. Um die IP-Erkennung zu bewältigen, können Sie Proxy-IP verwenden und eine große Anzahl von IP-Adressen wechseln, um Einschränkungen zu durchbrechen.


2. Erkennung des Bestätigungscodes

Legen Sie Beschränkungen für Anmeldebestätigungscodes fest und legen Sie Beschränkungen für Bestätigungscodes für diejenigen fest, die zu schnell zugreifen. Wenn Sie nicht den korrekten Bestätigungscode eingeben, können Sie keine erneuten Informationen erhalten. Da Crawler andere Tools zur Identifizierung von Verifizierungscodes verwenden können, vertiefen Websites die Schwierigkeit von Verifizierungscodes weiter, von gewöhnlichen Verifizierungscodes für die reine Datenrecherche bis hin zu Hybrid-Verifizierungscodes oder gleitenden Verifizierungscodes, Bildverifizierungscodes usw.


3. Header-Erkennung anfordern

Der Crawler ist kein Benutzer und weist beim Zugriff keine weiteren Eigenschaften auf. Die Website kann erkennen, ob die andere Partei ein Benutzer oder ein Crawler ist, indem sie den Anforderungsheader des Crawlers erkennt.


4.Cookie-Erkennung

Der Browser speichert Cookies, sodass die Website durch die Erkennung von Cookies erkennen kann, ob Sie ein echter Benutzer sind. Wenn der Crawler nicht gut getarnt ist, wird ein eingeschränkter Zugriff ausgelöst.

[email protected]