GPT‑5: evaluación técnica, impacto práctico y repercusiones para el Derecho

Por Santiago Carretero Sánchez — Profesor Titular de Filosofía del Derecho. Documento técnico y docente. Fecha: 11 de agosto de 2025.

Resumen ejecutivo: OpenAI ha presentado GPT‑5 como su sistema de referencia: una arquitectura unificada que combina modelos de respuesta rápida y modelos de razonamiento profundo mediante un enrutador en tiempo real. La oferta incluye variantes calibradas para distinto coste/latencia (entre ellas versiones mini y pro) y una experiencia de usuario que ya no requiere selección manual del modelo. El objetivo declarado es facilitar capacidades de desarrollo (generación de código, interfaces y tareas agente) desde prompts simples con mayor coherencia y control. Esta entrada expone, con lenguaje técnico, las capacidades reportadas, sus limitaciones empíricas y las consecuencias jurídicas y regulatorias que se derivan de su adopción.

1. Arquitectura y novedades funcionales

GPT‑5 opera como un sistema multi‑componente: (i) modelos de alta tasa de respuesta para tareas conversacionales y latencia baja; (ii) modelos de "thinking" o razonamiento para cadenas largas y verificación interna; y (iii) un "router" que decide dinámicamente qué componente ejecutar según la complejidad de la petición y las herramientas solicitadas. En la API aparecen parámetros para controlar verbosidad y perfiles de razonamiento, y se añade un parámetro de steerability que facilita perfiles de personalidad y estilo en entornos regulatorios sensibles.

2. Rendimiento y benchmarks

Informes iniciales muestran SOTA en varias tablas de LMArena y en benchmarks de código y generación frontend; la nota práctica es que el modelo destaca en generación de UI y en depuración de repositorios grandes. En tareas matemáticas tipo AIME se han reportado cifras excepcionalmente altas en evaluaciones independientes, mientras que en ARC‑AGI‑2 permanece rezagado frente a modelos cerrados como Grok 4 en ciertos tests de generalización agente‑aprendizaje. Es importante distinguir resultados reproducibles públicamente de métricas publicadas por terceras partes con metodologías distintas.

3. Limitaciones técnicas relevantes

Las limitaciones observadas son varias: sensibilidad a la distribución del prompt (prompt brittleness), errores en tareas de verificación factual cuando el uso de herramientas externas no es posible, y diferencias entre la capacidad declarada en demos y la robustez en producción. Benchmarks como ARC‑AGI‑2 evidencian que la supuesta "dominancia" no es uniforme: los modelos optimizados para agentes pueden superar a GPT‑5 en ciertos subdominios de aprendizaje y control. Desde la perspectiva de fiabilidad, estos puntos exigen precaución cuando se integran en flujos jurídicos automatizados.

4. Disponibilidad, producto y gobernanza

OpenAI ha distribuido el sistema base para usuarios básicos con límites de uso y variantes comerciales con cuotas superiores. La UI y la plataforma han dejado de exponer al usuario la elección manual del modelo, optando por el enrutador automático —decisión de producto con implicaciones regulatorias que analizaremos más abajo—. Esto introduce un reto de transparencia: para efectos de responsabilidad técnica y legal es preciso que el proveedor documente con precisión qué componente fue determinante en una respuesta concreta.

5. Implicaciones jurídicas inmediatas

Desde el Derecho —procesal, responsabilidad civil y protección de datos— la integración de GPT‑5 plantea cuestiones concretas: (i) trazabilidad de decisiones automatizadas (registro del enrutador y de las llamadas a submodelos); (ii) responsabilidad por resultados erróneos en asesoramiento automatizado; (iii) tratamiento de datos sensibles en prompts y su repercusión en obligaciones de información y seguridad; y (iv) riesgos de suplantación y generación de contenidos que afectan derechos de imagen y reputación. A efectos probatorios, los operadores deberán preservar artefactos técnicos que demuestren versión, prompt y trazas de ejecución.

6. Riesgos regulatorios y de cumplimiento

Las autoridades de protección de datos y de mercados podrían exigir: inventario de datos usados para fine‑tuning y evaluación, mecanismos de auditoría externa, y garantías de que los sistemas de razonamiento no incorporen sesgos nocivos. Además, la ausencia de modelos alternativos accesibles por el usuario complica la defensa frente a decisiones automatizadas —por ejemplo, en supuestos de asesoramiento jurídico asistido— y podría activar obligaciones de explicabilidad en la UE y otras jurisdicciones.

7. Consecuencias para la práctica profesional del Derecho

GPT‑5 facilita prototipado rápido de herramientas de soporte (generación de cláusulas, análisis documental, creación de interfaces para clientes). Sin embargo, exige controles técnicos y procedimentales: validación humana obligatoria en decisiones relevantes, establecimiento de cadenas de custodia de prompts, y cláusulas contractuales que definan límites de responsabilidad. La implantación prudente requiere integración con sistemas de verificación y un plan de gobernanza técnica que documente tests, métricas y umbrales de confianza.

8. Evaluación crítica y recomendaciones prácticas

Recomendaciones esenciales para despachos y unidades jurídicas: adoptar un enfoque de despliegue por fases, realizar pruebas internas replicables (benchmarks internos), exigir a proveedores registros de ejecución por petición, e incluir en contratos cláusulas de auditoría y derechos de remediación. Desde la docencia, cabe incorporar en los programas prácticos módulos sobre límites de validez de automatizaciones y sobre cómo preparar pruebas técnicas admisibles en juicio.

Nota: este texto es una pieza docente. Al final del chat figuran las fuentes consultadas y los enlaces a los informes técnicos que sostienen las afirmaciones aquí contenidas.

Buscar este blog

BLOG DE LAIAACTUAL (Santiago Carretero, Profesor Titular de Filosofía del Derecho)