Ce fournisseur de proxy que j’ai testé est le meilleur pour le grattage Web – et ce n’est pas iproal ou marsproxies
Les principaux plats de ZDNET
- La plate-forme de service proxy Oxylabs propose un énorme pool de proxys résidentiels éthiques, ce qui signifie que vous obtenez probablement des données de bonne qualité sans recul des sites que vous visitez.
- Le mélange d’OxyLabs d’API et d’IA nous a permis d’exécuter facilement des appels de test et devrait fournir une base solide pour le grattage des applications.
- OxyLabs a une excellente documentation et des vidéos, ce qui devrait vous aider à vous opérer avec leurs outils
- C’est un processus simple.
Oxylab Fournit une gamme de grattage Web et de services connexes. Ceux-ci incluent le fonctionnement des machines proxy, la fourniture d’API développeurs pour accéder et faire des demandes via ces machines, et fournir des services de support (y compris une IA de grattage) pour l’analyse des données récupérées afin de l’utiliser dans les applications.
Énormes piscines proxy
Par rapport à d’autres services de proxy comme iProal ou Marsproxies, les oxylabs propose un bassin de machines proxy résidentielles beaucoup plus large. Marsproxies ne rapporte qu’un million de machines dans son pool de proxy, Rapports iproyaux Ayant un pool de 32 millions de machines résidentielles, tandis que les oxylabs offrent plus de 175 millions de procurations résidentielles dans 195 pays.
En ce qui concerne les opérations de grattage ininterrompues, plus il y a de machines disponibles, moins une machine sera signalée par des opérateurs de site. Cela réduit la charge sur les sites et augmente la probabilité que les opérations de grattage réussissent.
Une chose m’a coincé en examinant ces informations: comment, exactement, une entreprise comme les oxylabs a-t-elle accès à 175 millions de machines, d’autant plus qu’ils disent qu’ils le font de manière éthique? Les oxylabs fournissent Un rapport incontournable Cela traite de leurs processus et politiques d’approvisionnement.
Aussi: Les meilleurs services de serveur proxy: expert recommandé
Il s’avère que l’entreprise verse aux propriétaires de machines résidentielles un petit montant en échange d’une tranche de leur bande passante. Tout cela est facilité par un certain nombre d’applications différentes qui offrent aux utilisateurs une récompense financière pour avoir participé à ces programmes.
Je suis déjà tombé sur la promotion de ces applications, mais je ne savais pas leur raison d’être: pour fournir un accès aux machines distribuées pour les réseaux d’acquisition de données. Aucun utilisateur d’ordinateur individuel ne va devenir riche de ces programmes de participation, mais si vous êtes quelqu’un qui utilise la bande passante avec parcimonie, cela peut être un moyen de ramasser quelques dollars supplémentaires.
In addition to residential proxies, the company offers ISP proxies (which use residential IPs but are hosted in an ISP’s data center for more stability), mobile proxies (which run on and report to sites as mobile devices, for mobile-specific testing), data center proxies (for rock-solid performance, but less anonymity), and dedicated data center proxies (which give you unlimited bandwidth and dedicated IP for travail haute performance).
Test de l’interface de codage
Les gens d’Oxylabs m’ont donné accès à leur interface de codage, j’ai donc pu avoir une idée de ce qu’il faut pour utiliser leurs proxys, faire des demandes de données et analyser les données pour l’utilisation de l’application.
L’entreprise obtient des félicitations pour savoir comment ils fournissent des informations sur l’utilisation. Ils ont une chaîne YouTube très utile avec 425 vidéos. Je n’avais que le temps d’en regarder une fraction, mais ils sont clairs, ce point et très informatifs.
La société a un tableau de bord facile à comprendre, qui est le point de départ de toutes les opérations.
Ils proposent également une plate-forme de test, appelée API Playground. C’est ici que vous pouvez coller dans les segments de code et voir comment ils fonctionnent. Notez que la société propose des blocs de code pré-écrits pour Curl, Python, Php, C #, Go, Java, Node.js et JSON. C’est un plus, car de nombreux vendeurs d’API ne le font pas. Je me sens toujours plus à l’aise quand je peux voir des exemples de code dans l’environnement de programmation que j’utilise.
Les choses sont devenues vraiment intéressantes quand j’ai commencé à bricoler avec l’Oxy Ai, appelée Oxycopilot. Tout d’abord, je recommande qu’Oxy change le nom de l’IA depuis que Copilot est le terme de Microsoft et il y a probablement un recul de l’équipe d’application de la marque de Redmond.
Aussi: La crise des données cachées menaçant vos plans de transformation d’IA
Cela dit, l’oxycopilot est cool. L’un des aspects les plus difficiles des opérations de grattage Web est qu’une fois que vous récupérez les données, vous devez comprendre comment extraire des informations utilisables. Puisque vous récupérez littéralement une page HTML entière (remplie d’annonces, de balises HTML et d’une tonne d’informations non liées), ce processus de post-traitement est algorithmiquement non trivial.
Sur la gauche, il gratter les données que les oxylabs ont retiré lors d’une éraflure de test dans leur terrain de jeu. À droite, le produit que je gratais, mon produit technologique préféré de tous les temps. La seule chose étrange est que j’ai donné à l’Oxycopilot l’URL à une page en anglais et que l’aperçu qu’il montre est en espagnol, bien que les informations sur les prix soient les mêmes.
Remarquez à quel point les données RAW retournées sont difficiles. Mais j’ai ensuite fait la même opération en utilisant l’oxycopilote. J’ai commencé par lui donner une URL pour gratter.
Ensuite, j’ai sauté devant les paramètres du grattoir pour donner à l’AI quelques instructions d’analyse. Tout ce que j’ai demandé était: « Veuillez extraire le nom et le prix actuels du produit. Indiquez si le prix est un prix réduit ou le prix régulier. »
Le résultat est cette forme intéressante. Notez qu’il a correctement tiré les données de tarification. Il m’a présenté les données comme un bloc JSON. Mais le morceau intéressant est l’onglet Instructions d’analyse à l’extrême droite.
Ce que l’IA a fait, c’est créer une structure JSON que vous alimentez l’API OxyLabs lors de l’envoi d’une demande de grattage. L’API suivra les instructions intégrées dans cette structure JSON et vous rendra uniquement les données que vous avez demandées.
J’ai fait l’analyse de pages Web plusieurs fois auparavant, et c’est une tâche très fastidieuse et fastidieuse. Cela m’a pris moins de cinq minutes.
Les conseils d’achat de ZDNET
Alors, devriez-vous utiliser ce service? Gardez à l’esprit que les offres à ce niveau sont des décisions commerciales et opérationnelles. Du point de vue de l’approvisionnement éthique, Oxylab Cela semble être un bon choix (en particulier avec 50% de réduction avec le code OxyLabs50). Et, à en juger par mes tests limités, c’est aussi un bon choix de la programmation et du point de vue algorithmique.
Quant à savoir s’il est rentable, cela dépend entièrement de votre cas d’utilisation. Seuls vous et votre équipe pouvez décider cela.
Aussi: Comment Cisco prévoit d’arrêter les attaques d’agent Rogue AI à l’intérieur de votre réseau
Enfin, en ce qui concerne le matériel de documentation et de formation, les oxylabs sont de premier ordre. J’ai été très impressionné par le contenu global sur leur site et sur YouTube. Cela m’a mis au courant très rapidement.
Et toi? Avez-vous utilisé des services de grattage proxy ou Web comme les oxylabs dans votre travail ou votre recherche? Quels défis avez-vous confrontés à la collecte de données à grande échelle et comment avez-vous navigué des barrages routiers éthiques ou techniques? Avez-vous essayé d’intégrer des outils d’IA comme Oxycopilot pour rationaliser vos workflows de grattage? Faites-nous savoir dans les commentaires ci-dessous.
Vous pouvez suivre mes mises à jour quotidiennes de projet sur les réseaux sociaux. Assurez-vous de vous abonner à ma newsletter hebdomadaire de mise à jouret suivez-moi sur Twitter / X à @Davidgewirtzsur Facebook à Facebook.com/davidgewirtzsur Instagram à Instagram.com/davidgewirtzsur bluesky à @ Davidgewirtz.comet sur youtube à Youtube.com/davidgewirtztv.
