¿Cuál es la diferencia entre un LLM y un chatbot?

Un LLM es el modelo subyacente (GPT-4, Claude, Gemini). Un chatbot es una aplicación que usa un LLM más una interfaz de chat, memoria de conversación, y típicamente reglas de seguridad. ChatGPT es un chatbot que usa los modelos GPT-4/GPT-4 Turbo/o1 por debajo.

¿RAG reemplaza al fine-tuning?

No, resuelven problemas distintos. RAG es para inyectar conocimiento actualizado o específico (tu base de clientes, documentación de tu producto). Fine-tuning es para cambiar el estilo o comportamiento del modelo (que responda siempre en un tono específico, que siga un formato). Lo más común es combinar ambos.

¿Cuánto cuesta realmente operar un sistema de IA en producción?

Depende del volumen y el modelo. Un chatbot que procesa 10.000 consultas al día usando Gemini Flash cuesta ~$30-50 al mes. El mismo volumen con GPT-4 Turbo cuesta ~$500-800. Escala lineal por lo general, pero con descuentos por volumen sobre un millón de tokens al día.

¿Qué es un agente y en qué se diferencia de un asistente?

Un asistente responde a lo que le preguntás. Un agente también actúa: navega sitios, ejecuta código, llama APIs, toma decisiones sin que lo supervises paso a paso. Claude Computer Use puede completar un formulario web, Cursor Agent puede refactorizar un archivo entero. La clave es que agentes asumen autonomía limitada en un scope definido.

¿Cuán grave es el problema de las alucinaciones?

Grave en contextos donde la exactitud importa (medicina, legal, finanzas) y manejable en otros (brainstorming, redacción creativa, código de apoyo). Las técnicas como RAG y grounding con citaciones reducen el riesgo. Regla de oro: nunca confíes en un número específico que te da un LLM sin verificarlo en la fuente.

¿Qué modelo debería elegir para mi aplicación?

Depende del caso. Para tareas de razonamiento complejo y escritura editorial: Claude 4.6 Opus o Gemini 3.1 Pro. Para volumen alto y bajo costo: Gemini 2.5 Flash o GPT-4o mini. Para código: Claude 4.6 Sonnet o GPT-5. Prueba 2-3 modelos con tus inputs reales antes de comprometerte con uno.

Glosario de Inteligencia Artificial en español: 30 términos que todo profesional debería entender

Un glosario editorial de IA sin ruido: 30 términos que vas a encontrar en cualquier anuncio de OpenAI, Anthropic, Nvidia o una ronda de startup de US$50M. Cada definición incluye un ejemplo real para que no tengas que googlear el término por segunda vez.

El vocabulario de la IA se mueve más rápido que la IA misma. Cada semana aparece un término nuevo —agentic, multimodal, MoE, chain-of-thought— y la mayoría de artículos asumen que vos ya sabés lo que significa. Este glosario cierra esa brecha.

Lo organizamos por categoría para que puedas usarlo como referencia mientras leés cualquier cobertura de IA. Cada término tiene una definición de 2-3 oraciones y un ejemplo concreto del mundo real —no definiciones de Wikipedia.

Fundamentos: lo básico que tenés que saber

LLM (Large Language Model): Modelo de lenguaje entrenado con miles de millones de parámetros para predecir la siguiente palabra en una secuencia. ChatGPT, Claude y Gemini son LLMs. La diferencia entre uno y otro es la escala, los datos de entrenamiento y el post-entrenamiento.
Parámetros: Los pesos numéricos que un modelo ajusta durante el entrenamiento. GPT-4 tiene ~1.8T de parámetros (no confirmado oficialmente), Gemini 3.1 Pro es comparable. Más parámetros generalmente ≠ mejor, pero permite capturar patrones más sutiles.
Token: La unidad básica que un LLM procesa — aproximadamente 3/4 de una palabra en español. "Inteligencia artificial" son ~5 tokens. Los modelos cobran por tokens consumidos y producidos.
Contexto / Context window: La cantidad máxima de tokens que el modelo puede considerar en una sola interacción. Gemini 3.1 Pro tiene 2M tokens; GPT-4 Turbo 128K. Un libro promedio son ~100K tokens.
Inference: El proceso de usar un modelo ya entrenado para generar una respuesta. Es donde se gasta la mayor parte del cómputo en producción (mucho más que en entrenamiento una vez está desplegado).

Entrenamiento y especialización

Pretraining: La etapa inicial donde el modelo aprende patrones del lenguaje procesando billones de tokens de internet, libros y código. Dura meses y cuesta decenas o cientos de millones de dólares.
Fine-tuning: Ajuste de un modelo pre-entrenado con datos específicos de un dominio — por ejemplo, textos médicos. Permite que un modelo genérico se comporte como experto en un área concreta a costo relativamente bajo.
RLHF (Reinforcement Learning from Human Feedback): Técnica que usa feedback humano para alinear un LLM con preferencias de usuarios. Es lo que hace que ChatGPT sea útil y no solo un completador de texto. Humanos rankean respuestas y el modelo aprende a producir las mejor puntuadas.
LoRA (Low-Rank Adaptation): Método económico de fine-tuning que entrena una pequeña matriz adicional en vez de actualizar todos los parámetros. Permite customizar un modelo grande en horas con un GPU, en vez de semanas con un clúster.
Instruction tuning: Entrenamiento con pares instrucción-respuesta para que un LLM siga mejor las órdenes del usuario. Es la diferencia entre un modelo que completa texto y uno que responde tus preguntas.

Técnicas y arquitecturas clave

RAG (Retrieval Augmented Generation): Arquitectura donde el LLM busca información en una base de datos externa antes de responder. Resuelve el problema de la alucinación y de datos desactualizados. Es el patrón más usado para chatbots empresariales.
Embeddings: Representación numérica de un texto como un vector de cientos o miles de dimensiones. Permite medir similitud semántica: dos oraciones con significado parecido tienen vectores cerca. Son la base de búsqueda vectorial y RAG.
Chain-of-thought (CoT): Técnica de prompting donde se pide al modelo que "piense paso a paso". Mejora dramáticamente el rendimiento en tareas de razonamiento, matemáticas y lógica. Los modelos de razonamiento como o1 lo hacen internamente.
Mixture of Experts (MoE): Arquitectura donde el modelo tiene múltiples sub-redes "expertas" y un router que activa solo algunas por cada token. Permite tener modelos gigantes (1T+ parámetros) con costos de inference similares a modelos más chicos.
Multimodal: Modelo que procesa más de un tipo de input: texto, imagen, audio, video. GPT-4o, Gemini y Claude son multimodales. Las aplicaciones incluyen análisis de PDFs con gráficos, transcripción de reuniones y generación de imagen desde texto.

Aplicaciones y agentes

Agent / Agente de IA: Sistema que usa un LLM como cerebro, tiene acceso a herramientas (navegador, código, APIs) y ejecuta tareas multi-paso autónomamente. Claude Computer Use y OpenAI Operator son los ejemplos más visibles a 2026.
Tool calling / Function calling: Capacidad de un LLM de decidir llamar a funciones externas (consultar una API, hacer un cálculo, enviar un email) como parte de su respuesta. Es lo que convierte un chatbot en un agente.
Agentic workflow: Pipeline donde múltiples llamadas a LLM coordinadas resuelven una tarea compleja. Por ejemplo: planificar → investigar → redactar → revisar → publicar, todo orquestado por un agente.
Copilot: Asistente de IA integrado en una aplicación específica (GitHub Copilot, Microsoft 365 Copilot). A diferencia de un chatbot genérico, está alimentado con contexto del entorno del usuario y tiene permisos para actuar sobre él.
Vector database: Base de datos optimizada para almacenar y buscar embeddings. Pinecone, Weaviate, pgvector y Qdrant son las más usadas. Fundamentales para cualquier sistema RAG serio.

Seguridad y alineamiento

Prompt injection: Ataque donde un texto malicioso instruye al LLM a ignorar sus reglas originales. Riesgo crítico en agentes que procesan input no confiable (emails, documentos de usuario, páginas web).
Jailbreak: Técnica para saltarse las restricciones de seguridad de un LLM y hacer que produzca output prohibido. Cada nueva generación de modelos es más resistente pero nunca es 100% segura.
Alucinación: Cuando un LLM genera información falsa con confianza. No es un bug ocasional: es una característica fundamental de cómo funcionan. RAG y grounding reducen el problema pero no lo eliminan.
Alignment: El problema técnico de asegurar que un modelo persiga objetivos útiles para humanos y no objetivos instrumentales no deseados. Es el centro de los equipos de Anthropic y OpenAI Safety.
Guardrails: Reglas externas al LLM que filtran inputs y outputs para evitar contenido dañino o fuera de scope. Se implementan como clasificadores separados o regex sobre lo que sale del modelo.

Infraestructura y negocio

GPU / TPU: Hardware especializado en operaciones matriciales masivas (matmul). Nvidia domina con H100 y B200; Google usa TPUs propias para Gemini; AWS usa Trainium e Inferentia. Son el cuello de botella físico del sector.
Token económicos: Métrica de costo: precio por millón de tokens procesados. Gemini 3.1 Pro ~$1.25 input / $10 output por millón. Un artículo de Tinta Tech parafraseado cuesta ~$0.05 total.
Throughput: Tokens por segundo que un modelo puede producir. Afecta directamente la experiencia de usuario en apps chat y el costo unitario en batch processing. Los modelos Flash priorizan throughput sobre calidad.
Inference endpoint: Servicio hosteado que expone un modelo vía API. Puede ser serverless (OpenAI, Anthropic, Google) o dedicado (AWS Bedrock, tu propio clúster). La decisión entre uno y otro es costo vs. control.
Distillation: Entrenar un modelo chico (alumno) para imitar un modelo grande (maestro). Permite desplegar capacidades similares a un costo 10-50x menor. Gemini Flash es una versión destilada de Gemini Pro.

Cómo usar este glosario en tu día a día

Guardá esta página como marcador. La próxima vez que leas un anuncio y veas "nuestro agente usa RAG sobre embeddings fine-tuneados", vas a poder decodificar qué hicieron exactamente y si es innovación real o marketing.

A mi juicio, el vocabulario de IA es una barrera artificial: una vez entendés los 30 términos de acá, el 80% de las noticias del sector son comprensibles. Los otros 20% son productos especializados (síntesis de voz, visión por computadora, reinforcement learning puro) que podés aprender cuando te toquen.

¿Falta un término? Mandanos tu sugerencia por el newsletter. Actualizamos este glosario cada trimestre con los términos que entran al léxico práctico.