Paso3
3
Inteligencia Visual
¡Buenas noticias! No necesitas configurar servicios complicados de OCR. Gemini 1.5 Flash ya tiene "ojos" y puede leer tus facturas directamente.
📸 ¿Cómo funciona?
Al usar el modelo 1.5 Flash, la app envía la foto directamente a Gemini. Él se encarga de todo en un solo paso:
- 🔍 Lee el texto de la imagen (OCR).
- 📊 Identifica los importes e impuestos.
- 🏢 Reconoce al proveedor.
- 🏷️ Clasifica el gasto automáticamente.
ℹ️ Dato clave: Al usar solo Gemini para todo, ahorras dinero y tiempo de configuración. Ya no es necesario activar la "Cloud Vision API" por separado.
🤖 Pregunta a tu Tutor
Si quieres entender mejor cómo Gemini procesa tus imágenes, copia este prompt:
Hola Gemini, estoy en el Paso 3. He decidido usar Gemini 1.5 Flash para procesar mis facturas directamente sin usar Cloud Vision API.
¿Puedes explicarme por qué el modelo 1.5 Flash es tan bueno para esto?
También confírmame:
1. ¿Tengo que pagar algo extra por enviar imágenes a la API de Gemini?
2. ¿Qué límites de "RPM" (peticiones por minuto) tengo en el plan gratuito?
3. ¿Cómo de seguro es enviar mis fotos de facturas a través de la API?
Dime si hay algún consejo para que las fotos se lean mejor.
💡 Tip: Gemini Vision es extremadamente potente. Asegúrate de que las fotos de tus facturas tengan buena iluminación para obtener los mejores resultados.
Comentarios
Publicar un comentario