MODELOS:
Cada LLM tiene distinto coste y tiempo de respuesta. Los modelos están ordenados por coste en la lista siendo gpt-4o-mini el más barato y gpt-4o el más caro, actualmente. Hay modelos más rápidos (gpt-4.1-nano, gpt-3.5-turbo, gpt-4.1-mini, gpt-5-chat-latest, …) y otros más lentos (gpt-5-mini, gpt-5, o3-mini).
MODOS:
"Prompting" usa un prompt distinto por operación. "Asistente" ahorra coste por trasiego de tokens de entrada ya que están todos los prompts precargados en el asistente de OpenAI. "Responses+RAG" usa un vector store a partir de un documento con contexto y ejemplos de cada operación. Los modelos afectan solo en los modos "prompting" y "responses+RAG". El modo "asistente" usa siempre el modelo gpt-4.1-mini que representa un buen compromiso entre coste, rapidez y calidad de la respuesta.
INCOMPATIBILIDADES:
Hay un time-out general de 60s pero raramente se alcanza incluso para los modelos más lentos. Algunos modelos no permiten una temperatura distinta de 1. Algunos modelos (gpt-5-chat-latest,...) no permiten el modo responses+RAG