Phase 19 - Lesson 17

Capstone 17 — Tutor de IA Personal (Adaptativo, Multimodal, con Memoria)

Khanmigo (Khan Academy), Duolingo Max, Google LearnLM / Gemini for Education, Quizlet Q-Chat y Synthesis Tutor lanzaron tutorías adaptativas multimodales a escala en 2026. El formato común consiste en una política socrática (nunca entregar la respuesta directamente), un modelo del estudiante que se actualiza tras cada interacción (al estilo de Bayesian knowledge tracing - BKT), entrada de voz + texto + foto de matemática, recuperación de grafo curricular, programación de repetición espaciada y filtros rígidos de seguridad para contenido apropiado para la edad. El capstone consiste en entregar un tutor específico de una materia (álgebra de primaria/secundaria - K-12 o introducción a Python), realizar un estudio de eficacia de dos semanas con 10 estudiantes y aprobar una auditoría de seguridad de contenido.

Tipo: Capstone Idiomas: Python (backend, modelo del estudiante), TypeScript (web app), SQL (grafo curricular a través de Postgres + Neo4j) Prerrequisitos: Fase 5 (PLN), Fase 6 (habla), Fase 11 (ingeniería de LLM), Fase 12 (multimodal), Fase 14 (agentes), Fase 17 (infraestructura), Fase 18 (seguridad) Fases ejercitadas: P5 · P6 · P11 · P12 · P14 · P17 · P18 Tiempo: 30 horas

Problema

La tutoría adaptativa solía ser un nicho de investigación en tecnología educativa (ed-tech). Para 2026, ya es un producto de consumo. Khanmigo se despliega en la mayoría de los distritos escolares de EE. UU. Duolingo Max alcanzó decenas de millones de usuarios activos mensuales (MAUs). LearnLM / Gemini for Education de Google potencia la tutoría en Google Classroom. Quizlet Q-Chat se encuentra junto a las flashcards. Synthesis Tutor se volvió viral con su propuesta de tutor para niños curiosos. Los elementos comunes son: entrada multimodal (escribir, hablar, fotografiar ecuaciones), pedagogia socrática (preguntar primero, explicar después), un modelo del estudiante que se actualiza tras cada interacción y seguridad estricta y apropiada para la edad.

Construirás uno de estos tutores para un grupo específico. La barra de medición es un estudio de eficacia real: puntuaciones de pre-test y post-test durante dos semanas con 10 estudiantes. El bucle de voz debe sentirse natural (sub-pila del capstone 03). La memoria debe respetar la privacidad. El filtro de seguridad debe pasar la evaluación de un red-team ciente de COPPA para educación básica (K-12).

Concepto

Cuatro componentes. Política del tutor es un bucle socrático: cuando el estudiante pide la respuesta, la política hace una pregunta guía; cuando responde correctamente, pasa al siguiente concepto; cuando se estanca, ofrece una pista estructurada. Modelo del estudiante es el rastreo bayesiano de conocimiento (BKT - Bayesian knowledge tracing, o una variante simple) que actualización la probabilidad de dominio por cada nodo del plan de estudios después de cada interacción. Grafo del plan de estudios (curriculum graph) es un Neo4j de conceptos con aristas de prerrequisitos; la política recorre el grafo para seleccionar el siguiente concepto. Memoria es un almacén episódico + semántico (estilo agentmemory) que guarda interações pasadas, errores y preferencias.

La interfaz de usuario (UX) es multimodal. Entrada de texto para respuestas escritas. Entrada de voz a través de LiveKit + Whisper (reutiliza el capstone 03). Entrada de fotos para problemas matemáticos a través de dots.ocr o PaliGemma 2. Salida de voz a través de Cartesia Sonic-2. La seguridad utiliza Llama Guard 4 más un filtro apropiado para la edad (bloquea contenido para adultos, violencia, autolesiones) y una política de retención de memoria que cumple con COPPA.

El estudio de eficacia es el entregable. 10 estudiantes, pre-test y post-test, dos semanas. Reporta el delta de ganancia de aprendizaje y el intervalo de confianza. Compáralo con una línea base no adaptativa (el mismo contenido entregado linealmente sin la política del tutor).

Arquitectura

learner device
  |
  +-- text         -> web app
  +-- voice        -> LiveKit Agents (ASR + TTS)
  +-- photo math   -> dots.ocr / PaliGemma 2
       |
       v
  tutor policy (LangGraph)
       - Socratic decision head
       - next-concept chooser (curriculum graph walk)
       - hint scaffolder
       - mastery update
       |
       v
  learner model (BKT / item-response theory)
       - per-concept mastery probability
       - spaced-repetition scheduler (SM-2 or FSRS)
       |
       v
  memory (agentmemory-style)
       - episodic: every interaction
       - semantic: learned mistakes, preferences
       - retention policy: COPPA / GDPR aware
       |
       v
  curriculum graph (Neo4j)
       - prerequisite edges
       - OER content attached
       |
       v
  safety:
    Llama Guard 4 + age-appropriate filter
    memory access guarded by learner ID scope

Pila

  • Elección de materia: álgebra de primaria/secundaria (K-12) o introducción a Python (elige una para mayor profundidad)
  • Política del tutor: LangGraph sobre Claude Sonnet 4.7 (con caché de prompts)
  • Modelo del estudiante: rastreo bayesiano de conocimiento (BKT clásico) o FSRS para el espaciado
  • Grafo curricular: Neo4j de conceptos + aristas de prerrequisitos + contenido OER (Recursos Educacionales Abertos)
  • Memoria: vector persistente estilo agentmemory + almacén episódico + semántico
  • Voz: LiveKit Agents 1.0 + Cartesia Sonic-2 (reutiliza la sub-pila del capstone 03)
  • Foto de matemáticas: dots.ocr o PaliGemma 2 para el reconocimiento de ecuaciones
  • Seguridad: Llama Guard 4 + filtro personalizado apropiado para la edad
  • Evaluación: generación de preguntas al nivel de Bloom, harness de pre/post-test, herramientas para estudios de eficacia

Construcción

  1. Grafo curricular. Construye un Neo4j de 50 a 150 nodos de conceptos (por ejemplo, álgebra de primaria/secundaria desde "línea numérica" hasta "fórmula cuadrática") con aristas de prerrequisitos. Adjunta contenido OER por cada nodo (Open Textbook, OpenStax).

  2. Modelo del estudiante. Inicializa el rastreo bayesiano de conocimiento con prioris (priors): guess (adivinación), slip (deslizar), learn-rate (tasa de aprendizaje). Actualiza el dominio de cada concepto después de cada interacción. Persiste por cada estudiante.

  3. Política del tutor. LangGraph con nodos: read_signal (¿la respuesta del estudiante fue correcta / parcial / estancada?), select_concept (recorre el grafo curricular seleccionando el concepto de mayor prioridad), scaffold (prompt socrático), update_mastery.

  4. Memoria. Cada interacción escribe en un almacén episódico. Los errores y preferencias se promueven a la memoria semántica. Política de retención que cumple con COPPA: eliminación automática tras 1 año, accesible para los padres.

  5. Ruta de voz. Worker de LiveKit Agents conectado a la política del tutor. ASR a través de Whisper-v3-turbo. TTS a través de Cartesia Sonic-2. Soporta interrupciones de voz (barge-in) (reutiliza las mecánicas del capstone 03).

  6. Ruta de fotos matemáticas. Sube o captura una imagen; ejecuta dots.ocr o PaliGemma 2 para reconocer la ecuación; aliméntala al tutor como entrada estructurada.

  7. Seguridad. Cada salida del modelo pasa por Llama Guard 4 + un filtro apropiado para la edad (bloquea autolesiones, contenido para adultos, violencia). Acceso a la memoria delimitado por el ID del estudiante; interfaz de acceso parental para la eliminación de datos.

  8. Estudo de eficacia. 10 estudiantes, pre-test (línea base estandarizada de 30 preguntas), dos semanas de interacción con el tutor (3 sesiones/semana), post-test. Compáralo con un grupo de control no adaptativo de 10 estudiantes sobre el mismo contenido.

  9. Informes de progreso semanales. Por cada estudiante, genera automáticamente un PDF que resuma los temas explorados, las trayectorias de dominio y los siguientes pasos recomendados.

Uso

learner: "I don't understand why 3x + 6 = 12 means x = 2"
[signal]   stuck
[concept]  'isolating variables' (prerequisite: addition-subtraction-equality)
[scaffold] "what number would you subtract from both sides to start?"
learner: "6"
[signal]   correct
[mastery]  addition-subtraction-equality: 0.62 -> 0.77
[concept]  continue 'isolating variables'
[scaffold] "great. now what is 3x / 3 equal to?"

Entrega

outputs/skill-ai-tutor.md es el entregable. Un tutor adaptativo específico de la materia con entrada multimodal, un modelo del estudiante, memoria, seguridad y eficacia medida.

Peso Criterio Cómo se mide
25 Delta de ganancia de aprendizaje Delta de pre/post-test en un estudio de dos semanas con 10 estudiantes
20 Fidelidad socrática Puntuación de rúbrica en muestras de transcripciones
20 UX multimodal Coherencia de voz + foto + texto de extremo a extremo
20 Postura de seguridad y privacidad Tasa de aprobación de Llama Guard 4 + retención de datos alineada con COPPA
15 Amplitud del currículo y calidad del grafo Cobertura de conceptos + consistencia del grafo de prerrequisitos
100

Ejercicios

  1. Realiza el estudio de eficacia con y sin el modelo de aprendizaje adaptativo (orden de conceptos aleatorio). Reporta el delta. Se espera que el modelo adaptativo gane, pero el tamaño de la diferencia es la cifra interesante.

  2. Agrega una prueba multimodal: la misma pregunta conceptual presentada como texto, voz y foto. Mide si los estudiantes convergen más rápido con la modalidad que prefieren.

  3. Diseña un panel (dashboard) para padres: temas practicados, trayectorias de dominio, próximos conceptos, eventos de seguridad (cualquier activación de barrera de seguridad). Cumple con COPPA.

  4. Agrega un modo de cambio de idioma: el tutor acepta entradas en español y enseña en español. Mide la cobertura de X-Guard.

  5. Pon a prueba la privacidad de la memoria: verifica que el estudiante A no pueda ver los datos del estudiante B, incluso a través de un ataque de reingesta de fragmento de voz. Registra el intento de acceso y genera una alerta.

Términos Clave

Término Lo que la gente dice Lo que realmente significa
Política socrática "Preguntar, no responder directamente" El tutor formula una pregunta orientadora en lugar de dar la respuesta
Rastreo bayesiano de conocimiento "BKT" Ecuaciones clásicas del modelo del estudiante para la probabilidad de dominio por concepto
FSRS "Free Spaced Repetition Scheduler" Programador de repetición espaciada de 2024, mejor que SM-2
Grafo curricular "Concept DAG" Neo4j de conceptos con aristas de prerrequisitos
Memoria episódica "Registro por interacción" Cada interacción almacenada para su posterior recuperación
Memoria semántica "Almacén de patrones aprendidos" Errores y preferencias compactados promovidos desde la memoria episódica
COPPA "Ley de privacidad infantil" Ley de EE. UU. que restringe la recopilación de datos de niños menores de 13 años

Lecturas Adicionales

0 lifetime access. Curriculum based on AI Engineering from Scratch by Rohit Ghumare (MIT, used under attribution).