Phase 19 - Lesson 17

Capstone 17 — Tutor de IA Pessoal (Adaptativo, Multimodal, com Memória)

O Khanmigo (Khan Academy), o Duolingo Max, o Google LearnLM / Gemini for Education, o Quizlet Q-Chat e o Synthesis Tutor entregaram tutoria multimodal adaptativa em escala em 2026. O formato comum é uma política socrática (nunca apenas fornecer a resposta diretamente), um modelo de estudante que se atualiza após cada interação (no estilo de rastreamento bayesiano de conhecimento - Bayesian Knowledge Tracing), entrada de voz + texto + foto de matemática, recuperação de grafo curricular, agendamento de repetição espaçada e filtros rígidos de segurança para conteúdo apropriado para a idade. O capstone consiste em entregar um tutor específico de uma disciplina (álgebra de ensino fundamental/médio - K-12 ou introdução a Python), realizar um estudo de eficácia de duas semanas com 10 estudantes e passar por uma auditoria de segurança de conteúdo.

Tipo: Capstone Idiomas: Python (backend, modelo do estudante), TypeScript (web app), SQL (grafo curricular via Postgres + Neo4j) Pré-requisitos: Fase 5 (PLN), Fase 6 (fala), Fase 11 (engenharia de LLM), Fase 12 (multimodal), Fase 14 (agentes), Fase 17 (infraestrutura), Fase 18 (segurança) Fases exercitadas: P5 · P6 · P11 · P12 · P14 · P17 · P18 Tempo: 30 horas

Problema

A tutoria adaptativa costumava ser um nicho de pesquisa em tecnologia educacional (ed-tech). Em 2026, tornou-se um produto de consumo. O Khanmigo está implantado na maioria dos distritos escolares dos EUA. O Duolingo Max atingiu dezenas de milhões de usuários ativos mensais (MAUs). O LearnLM / Gemini for Education do Google potencializa a tutoria no Google Classroom. O Quizlet Q-Chat fica ao lado dos flashcards. O Synthesis Tutor viralizou com sua proposta de tutoria para crianças curiosas. Os elementos comuns são: entrada multimodal (digitar, falar, fotografar equações), pedagogia socrática (perguntar primeiro, explicar depois), um modelo do estudante que se atualiza após cada interação e segurança estrita apropriada para a idade.

Você irá construir um desses tutores para uma coorte específica. A barra de medição é um estudo de eficácia real: pontuações de pré-teste e pós-teste ao longo de duas semanas com 10 estudantes. O loop de voz deve parecer natural (subpilha do capstone 03). A memória deve respeitar a privacidade. O filtro de segurança deve passar por um red-team ciente da COPPA para educação básica (K-12).

Conceito

Quatro componentes. Política do tutor é um loop socrático: quando o estudante pede a resposta, a política faz uma pergunta orientadora; quando ele acerta, ela passa para o próximo conceito; quando ele está travado, ela oferece uma dica estruturada (scaffolded hint). Modelo do estudante é o rastreamento bayesiano de conhecimento (BKT - Bayesian Knowledge Tracing, ou uma variante simples) que atualiza a probabilidade de domínio por nó do currículo após cada interação. Grafo curricular é um Neo4j de conceitos com arestas de pré-requisitos; a política percorre o grafo para escolher o próximo conceito. Memória é um armazenamento episódico + semântico (estilo agentmemory) que guarda interações passadas, erros e preferências.

A experiência do usuário (UX) é multimodal. Entrada de texto para respostas digitadas. Entrada de voz via LiveKit + Whisper (reutilize o capstone 03). Entrada de foto para problemas de matemática via dots.ocr ou PaliGemma 2. Saída de voz via Cartesia Sonic-2. A segurança usa o Llama Guard 4 mais um filtro apropriado para a idade (bloqueia conteúdo adulto, violência, automutilação) e uma política de retenção de memória ciente da COPPA.

O estudo de eficácia é o entregável. 10 estudantes, pré-teste e pós-teste, duas semanas. Relate o delta de ganho de aprendizagem e o intervalo de confiança. Compare com uma linha de base não adaptativa (o mesmo conteúdo entregue de forma linear, sem a política do tutor).

Arquitetura

learner device
  |
  +-- text         -> web app
  +-- voice        -> LiveKit Agents (ASR + TTS)
  +-- photo math   -> dots.ocr / PaliGemma 2
       |
       v
  tutor policy (LangGraph)
       - Socratic decision head
       - next-concept chooser (curriculum graph walk)
       - hint scaffolder
       - mastery update
       |
       v
  learner model (BKT / item-response theory)
       - per-concept mastery probability
       - spaced-repetition scheduler (SM-2 or FSRS)
       |
       v
  memory (agentmemory-style)
       - episodic: every interaction
       - semantic: learned mistakes, preferences
       - retention policy: COPPA / GDPR aware
       |
       v
  curriculum graph (Neo4j)
       - prerequisite edges
       - OER content attached
       |
       v
  safety:
    Llama Guard 4 + age-appropriate filter
    memory access guarded by learner ID scope

Pilha

Escolha da disciplina: álgebra de ensino fundamental/médio (K-12) ou introdução a Python (escolha uma para aprofundar)
Política do tutor: LangGraph sobre Claude Sonnet 4.7 (com cache de prompt)
Modelo do estudante: rastreamento bayesiano de conhecimento (BKT clássico) ou FSRS para espaçamento
Grafo curricular: Neo4j de conceitos + arestas de pré-requisitos + conteúdo OER (Recursos Educacionais Abertos)
Memória: vetor persistente estilo agentmemory + armazenamento episódico + semântico
Voz: LiveKit Agents 1.0 + Cartesia Sonic-2 (reutilize a subpilha do capstone 03)
Foto de matemática: dots.ocr ou PaliGemma 2 para reconhecimento de equações
Segurança: Llama Guard 4 + filtro personalizado apropriado para a idade
Avaliação: geração de perguntas no nível de Bloom, harness de pré/pós-teste, ferramentas de estudo de eficácia

Construção

Grafo curricular. Construa um Neo4j de 50 a 150 nós de conceito (por exemplo, álgebra básica de "linha numérica" a "fórmula quadrática") com arestas de pré-requisitos. Anexe conteúdo OER a cada nó (Open Textbook, OpenStax).
Modelo do estudante. Inicialize o rastreamento bayesiano de conhecimento com prioris (priors): guess (adivinhação), slip (deslize), learn-rate (taxa de aprendizado). Atualize o domínio de cada conceito após cada interação. Persista os dados por estudante.
Política do tutor. LangGraph com nós: read_signal (a resposta do estudante estava correta / parcial / travada?), select_concept (percorre o grafo curricular escolhendo o conceito de maior prioridade), scaffold (prompt socrático), update_mastery.
Memória. Cada interação é registrada em um armazenamento episódico. Erros e preferências são promovidos para a memória semântica. Política de retenção ciente da COPPA: exclusão automática após 1 ano, acessível pelos pais.
Caminho de voz. Worker do LiveKit Agents conectado à política do tutor. ASR via Whisper-v3-turbo. TTS via Cartesia Sonic-2. Suporte para interrupção de fala (barge-in) (reutilize a mecânica do capstone 03).
Caminho de foto de matemática. Faça upload ou capture uma imagem; execute o dots.ocr ou PaliGemma 2 para reconhecer a equação; forneça-a ao tutor como entrada estruturada.
Segurança. Cada saída do modelo passa pelo Llama Guard 4 + um filtro apropriado para a idade (bloqueia automutilação, conteúdo adulto, violência). Acesso à memória com escopo definido pelo ID do estudante; interface de acesso parental para exclusão de dados.
Estudo de eficácia. 10 estudantes, pré-teste (linha de base padronizada de 30 perguntas), duas semanas de interação com o tutor (3 sessões por semana), pós-teste. Compare com uma coorte de linha de base não adaptativa de 10 estudantes que recebem o mesmo conteúdo.
Relatórios de progresso semanais. Por estudante, gere automaticamente um PDF resumindo os tópicos explorados, trajetórias de domínio e as próximas etapas recomendadas.

Uso

learner: "I don't understand why 3x + 6 = 12 means x = 2"
[signal]   stuck
[concept]  'isolating variables' (prerequisite: addition-subtraction-equality)
[scaffold] "what number would you subtract from both sides to start?"
learner: "6"
[signal]   correct
[mastery]  addition-subtraction-equality: 0.62 -> 0.77
[concept]  continue 'isolating variables'
[scaffold] "great. now what is 3x / 3 equal to?"

Entrega

outputs/skill-ai-tutor.md é o entregável. Um tutor adaptativo específico para a disciplina com entrada multimodal, um modelo do estudante, memória, segurança e eficácia medida.

Peso	Critério	Como é medido
25	Delta de ganho de aprendizagem	Delta de pré/pós-teste em um estudo de duas semanas com 10 estudantes
20	Fidelidade socrática	Pontuação de rubrica em amostras de transcrição
20	UX multimodal	Coerência de voz + foto + texto de ponta a ponta
20	Postura de segurança + privacidade	Taxa de aprovação do Llama Guard 4 + retenção ciente da COPPA
15	Amplitude do currículo e qualidade do grafo	Cobertura de conceitos + consistência do grafo de pré-requisitos
100

Exercícios

Execute o estudo de eficácia com e sem o modelo do estudante adaptativo (ordem de conceitos aleatória). Relate o delta. Espera-se que o adaptativo vença, mas o tamanho do delta é o número interessante.
Adicione uma sondagem multimodal: a mesma pergunta de conceito entregue como texto, voz e foto. Meça se os estudantes convergem mais rapidamente com a modalidade que preferem.
Construa um painel (dashboard) para os pais: tópicos praticados, trajetórias de domínio, próximos conceitos, eventos de segurança (quaisquer acionamentos de guardrail). Alinhado com a COPPA.
Adicione um modo de alternância de idioma: o tutor aceita entrada em espanhol e ensina em espanhol. Meça a cobertura do X-Guard.
Teste o limite da privacidade da memória: verifique se o estudante A não consegue ver os dados do estudante B mesmo por meio de um ataque de reingestão de clipe de voz. Registre a tentativa de acesso e envie um alerta.

Termos-Chave

Termo	O que dizem	O que realmente significa
Política socrática	"Pergunte, não entregue"	O tutor faz uma pergunta orientadora em vez de dar a resposta
Rastreamento bayesiano de conhecimento	"BKT"	Equações clássicas do modelo do estudante para a probabilidade de domínio por conceito
FSRS	"Free Spaced Repetition Scheduler"	Agendador de repetição espaçada de 2024, melhor que o SM-2
Grafo curricular	"DAG de conceitos"	Neo4j de conceitos com arestas de pré-requisitos
Memória episódica	"Log por interação"	Cada interação armazenada para recuperação posterior
Memória semântica	"Loja de padrões aprendidos"	Erros e preferências compactados promovidos a partir da memória episódica
COPPA	"Lei de privacidade infantil"	Lei dos EUA que restringe a coleta de dados de crianças menores de 13 anos

Leituras Adicionais

Khanmigo (Khan Academy) — tutor de referência de consumo para educação básica (K-12)
Duolingo Max — tutor de referência para aprendizado de idiomas
Google LearnLM / Gemini for Education — modelo de referência hospedado
Quizlet Q-Chat — referência alternativa
Synthesis Tutor — referência de startup
Algoritmo FSRS — agendador de repetição espaçada
Rastreamento Bayesiano de Conhecimento — clássico de modelo do estudante
LiveKit Agents — pilha de voz