Crawl4AI
APIs y Desarrollo
Crawl4AI es una herramienta poderosa para scraping web y crawling, optimizada para interactuar con navegadores mediante Playwright, permitiendo la automatización de tareas de recopilación de datos. Este stack configura el contenedor adecuado, expone los puertos necesarios y establece las variables de entorno necesarias para su ejecución. Todo ello se maneja bajo una configuración segura y escalable en Docker Swarm.
Vista Previa
version: '3.8'
services:
crawl4ai:
image: unclecode/crawl4ai:all-amd64
environment:
CRAWL4AI_API_TOKEN: "mi_token_secreto"
PLAYWRIGHT_CHROMIUM_HEADLESS_MODE: "new"
PLAYWRIGHT_BROWSERS_PATH: "/usr/bin"
PLAYWRIGHT_SKIP_BROWSER_DOWNLOAD: "1"
PLAYWRIGHT_CHROMIUM_EXTRA_LAUNCH_ARGS: "--no-sandbox --disable-gpu"
networks:
- proxy
deploy:
mode: replicated
replicas: 1
placement:
constraints:
- node.role == manager
labels:
- traefik.enable=true
- traefik.http.routers.crawl4ai.rule=Host(`crawl4ai.tudominio.com`)
- traefik.http.services.crawl4ai.loadbalancer.server.port=11235
- traefik.http.routers.crawl4ai.entrypoints=websecure
- traefik.http.routers.crawl4ai.tls.certresolver=letsencryptresolver
restart: always
networks:
proxy:
external: true
name: proxy