Las escuelas de autonomía vehicular

Existe un debate fundamental en el mundo de la conducción autónoma que define cómo cada empresa construye sus vehículos. La pregunta es simple: ¿cómo debe un coche ver el mundo?

La respuesta a esa pregunta divide a la industria en tres escuelas distintas. Cada una carga premisas diferentes sobre costo, escalabilidad y el papel de la inteligencia artificial. Entender esas escuelas es entender el futuro de la movilidad — y entender por qué Bex tomó la decisión que tomó.

La escuela sensor-heavy

Waymo. Cruise. Aurora. Motional.

La primera generación de vehículos autónomos nació apilando sensores. Un coche de Waymo lleva cámaras, radares, LiDARs y sensores ultrasónicos — cada uno cubriendo una franja del espectro, cada uno generando una capa diferente de datos sobre el entorno.

La lógica es de redundancia: si la cámara falla, el LiDAR compensa. Si el LiDAR no ve un objeto transparente, el radar lo detecta. La fusión de múltiples sensores crea una representación rica y confiable del mundo alrededor.

El problema es el costo. Un solo sensor LiDAR de alta resolución puede costar más que un coche popular brasileño. Multiplicado por cuatro o cinco unidades por vehículo, más los radares, más la computación necesaria para fusionar todo en tiempo real — el costo por vehículo se vuelve prohibitivo para operación a escala.

Waymo opera flotas limitadas en ciudades mapeadas centímetro a centímetro. Funciona extraordinariamente bien dentro de esos límites. Pero, ¿escalar a millones de vehículos, en miles de ciudades, con infraestructura vial precaria? El modelo sensor-heavy tiene dificultad estructural con eso.

La escuela vision-only

Tesla FSD. Comma.ai OpenPilot.

La segunda escuela hace una apuesta radical: las cámaras son suficientes. Si un ser humano conduce usando solo dos ojos, un computador con ocho cámaras e inteligencia artificial suficiente debería lograr lo mismo.

Tesla es el caso más conocido. En 2022, eliminó los sensores de radar y ultrasonido de sus vehículos, apostando exclusivamente por cámaras y redes neuronales. El argumento de Elon Musk: el LiDAR es una muleta. La solución real es enseñar al software a ver como un humano — y eso exige datos, no sensores caros.

Comma.ai, con OpenPilot, sigue la misma filosofía con enfoque open-source. Una sola cámara y un device simple instalado en el vehículo, ejecutando modelos que aprenden a partir de millones de kilómetros conducidos por conductores reales.

La ventaja es económica y escalable. Las cámaras cuestan centavos comparadas con el LiDAR. Cualquier vehículo con cámaras puede, en teoría, ejecutar el software. Y con cada kilómetro conducido, el modelo mejora — creando un ciclo virtuoso de datos e inteligencia.

La desventaja es que la visión pura depende enteramente de la calidad del modelo. En condiciones adversas — lluvia fuerte, niebla, sol directo en el lente — la cámara sufre. Y sin redundancia de sensores, el sistema necesita ser extraordinariamente confiable en el procesamiento de lo que la cámara captura.

La escuela híbrida

Mobileye. Huawei ADS. Xpeng XNGP. BYD.

La tercera escuela busca un punto medio pragmático. Cámaras como sensor primario — porque son baratas y escalables — con radar como respaldo para situaciones críticas. Sin LiDAR en el vehículo de producción, pero con una arquitectura que no depende exclusivamente de la visión.

Mobileye, subsidiaria de Intel, es la referencia de este enfoque. Sus chips de visión computacional ya equipan más de 150 millones de vehículos en el mundo. El sistema EyeQ procesa video en tiempo real con consumo mínimo de energía, y el radar complementa la detección a distancias largas y en condiciones de baja visibilidad.

Huawei ADS y Xpeng XNGP siguen caminos similares en China: visión computacional como columna vertebral, radar como red de seguridad. Logran operar en ciudades sin mapeo previo — algo que la escuela sensor-heavy todavía no hace bien.

El modelo híbrido es el que más crece globalmente, porque equilibra costo, seguridad y escalabilidad. No es la solución más elegante, pero es la más pragmática para llevar autonomía a millones de vehículos en los próximos años.

La tendencia es clara

El mundo está convergiendo hacia la visión. Incluso empresas que nacieron en la escuela sensor-heavy están reduciendo la dependencia de LiDAR. Aurora, que desarrolla camiones autónomos, ya trabaja con configuraciones de sensores más reducidas. Mobileye planea eliminar el LiDAR de sus sistemas de próxima generación.

La razón es matemática: las cámaras mejoran y se abaratan cada año. Los modelos de IA se vuelven más capaces con cada generación. El LiDAR también se abarata, pero nunca va a costar centavos como una cámara. Y el volumen de datos que generan las cámaras — combinado con el avance de los modelos de visión computacional — está cerrando la brecha de desempeño.

Dónde se posiciona Bex

Bex es vision-first por convicción y por necesidad.

Por convicción, porque creemos que la visión computacional es el camino escalable hacia la autonomía. Si el objetivo es llevar inteligencia a millones de vehículos brasileños, el sensor necesita ser accesible. Las cámaras lo son.

Por necesidad, porque la realidad brasileña exige escala antes que sofisticación. Brasil opera en L0 — sin ninguna infraestructura de autonomía. No tenemos el lujo de empezar con flotas limitadas de vehículos caros en ciudades mapeadas. Necesitamos una red amplia de recolección de datos, hoy, con hardware que cualquier conductor pueda instalar.

Es exactamente lo que hace Bex Cam. Una cámara — en el celular o en el device dedicado — recolectando video y telemetría del tránsito brasileño. Cada kilómetro recorrido alimenta el dataset que entrenará al Bex Pilot, el stack de conducción autónoma de Bex.

La escuela que elegimos no es la más conservadora. Pero es la única que escala para un país continental con 50 millones de vehículos y cero infraestructura de autonomía.

Empezamos por la cámara. El resto viene después.