Modelos fundacionales, tokens, ventanas de contexto, agentes, RAG, multimodal: el vocabulario de la IA moderna puede parecer un muro de jerga. Esta guía desglosa lo que de verdad importa, en lenguaje claro, para que entiendas las herramientas que te intentan vender.
Hace unos años, «IA» significaba un programa estrecho que hacía un solo trabajo: marcar spam, recomendar una película, reconocer una cara. La IA moderna es distinta. Hoy la expresión suele apuntar a un puñado de sistemas muy grandes y muy generales capaces de escribir, programar, analizar y conversar sobre casi cualquier tema. Entender unas pocas ideas centrales basta para dar sentido a prácticamente cualquier herramienta de IA del mercado.
En el centro de la IA moderna están los modelos fundacionales: sistemas entrenados con cantidades enormes de texto, código, imágenes y audio. Como han absorbido tanto, un solo modelo puede manejar muchas tareas en lugar de estar hecho para un único propósito. Cuando la gente dice «la IA escribió esto» o «la IA arregló mi código», normalmente el motor de debajo es un modelo fundacional.
Es fundamental entender que un modelo no es lo mismo que un producto. El modelo es el motor; la aplicación que usas es el coche construido a su alrededor. Por eso dos herramientas que se sienten muy distintas pueden funcionar sobre una tecnología subyacente similar.
Los modelos de IA no leen las palabras exactamente como nosotros. Dividen el texto en tokens: fragmentos pequeños, a menudo trozos de palabras. Esto importa por dos razones prácticas: el precio se mide con frecuencia por token, y cada modelo tiene un límite de cuántos tokens puede considerar a la vez.
Ese límite es la ventana de contexto: la cantidad de texto que el modelo puede «tener en mente» en una sola conversación. Una ventana de contexto más grande significa que puedes darle un documento largo, todo un código base o un historial de chat extenso y hacer que razone sobre todo ello. Cuando una herramienta «olvida» lo que dijiste antes, normalmente has superado su ventana de contexto.
Una analogía sencilla. Piensa en la ventana de contexto como el escritorio del modelo. Un escritorio más grande te deja extender más papeles a la vez. Pero si apilas más de lo que cabe, los papeles de los bordes se caen, y el modelo deja de «ver» las partes más antiguas de tu conversación.
La IA de chat inicial solo manejaba texto. Los modelos multimodales trabajan con distintos formatos: leen imágenes, escuchan audio y a veces producen imágenes o voz. En la práctica esto significa que puedes mostrarle a un modelo una captura de pantalla y preguntar sobre ella, o darle un gráfico y obtener una explicación. Al elegir una herramienta, conviene comprobar qué formatos admite de verdad, no solo cuáles anuncia.
Un chatbot simple responde a tu pregunta. Un agente va más allá: puede dividir un objetivo en pasos y actuar —buscando en la web, ejecutando código, editando archivos o llamando a otro software— con menos indicaciones paso a paso por tu parte. En lugar de «dime cómo hacer X», un agente intenta hacer X.
Los agentes son potentes pero menos predecibles. Pueden completar impresionantes tareas de varios pasos y también equivocarse con seguridad, por lo que los útiles mantienen a un humano en el bucle para revisar lo que hicieron.
Los modelos fundacionales solo saben lo que aprendieron durante el entrenamiento, así que pueden estar desactualizados o simplemente equivocarse en detalles. La generación aumentada por recuperación (RAG) lo soluciona buscando información relevante —en tus documentos, una base de datos o la web— y entregándosela al modelo antes de que responda. El resultado se basa en fuentes reales en lugar de en la memoria del modelo.
Si has usado una herramienta de IA que responde preguntas sobre tus archivos o cita sus fuentes, probablemente has usado RAG. Es una de las formas más fiables de reducir las respuestas seguras pero equivocadas.
No necesitas seguir cada lanzamiento de modelo para elegir bien. Unos pocos principios en lenguaje claro llegan lejos:
La IA moderna es un pequeño número de modelos fundacionales generales, envueltos en productos, que leen el texto como tokens dentro de una ventana de contexto limitada, cada vez trabajan más con distintos formatos (multimodal), pueden actuar (agentes) y responden con más fiabilidad cuando reciben los datos correctos (RAG). Aprende esas ideas y el marketing será mucho más fácil de ver con claridad.
La IA moderna suele referirse a grandes modelos fundacionales: sistemas entrenados con enormes cantidades de texto, código, imágenes y audio que pueden generar y razonar en muchas tareas. En lugar de un programa estrecho por trabajo, un solo modelo impulsa la escritura, la programación, el análisis y más, a menudo envuelto en herramientas y agentes.
Un modelo es el motor subyacente que genera texto, código o imágenes. Una herramienta de IA es el producto construido a su alrededor: la interfaz, las funciones y el flujo de trabajo. Muchas herramientas pueden funcionar sobre el mismo modelo, por lo que dos aplicaciones pueden parecer muy diferentes.
Parte de la tarea, no de la exageración. Decide qué quieres hacer, prueba un plan gratuito en trabajo real y júzgalo por su calidad, fiabilidad y cuánta edición o revisión te ahorra. La mejor herramienta es la que encaja en tu flujo de trabajo.
Ahora que la jerga tiene sentido, mira cómo rindieron las herramientas de verdad en nuestras pruebas independientes.
Ver todas las reseñas