Phase 19 - Lesson 17
Capstone 17 — Tutor de IA Pessoal (Adaptativo, Multimodal, com Memória)
O Khanmigo (Khan Academy), o Duolingo Max, o Google LearnLM / Gemini for Education, o Quizlet Q-Chat e o Synthesis Tutor entregaram tutoria multimodal adaptativa em escala em 2026. O formato comum é uma política socrática (nunca apenas fornecer a resposta diretamente), um modelo de estudante que se atualiza após cada interação (no estilo de rastreamento bayesiano de conhecimento - Bayesian Knowledge Tracing), entrada de voz + texto + foto de matemática, recuperação de grafo curricular, agendamento de repetição espaçada e filtros rígidos de segurança para conteúdo apropriado para a idade. O capstone consiste em entregar um tutor específico de uma disciplina (álgebra de ensino fundamental/médio - K-12 ou introdução a Python), realizar um estudo de eficácia de duas semanas com 10 estudantes e passar por uma auditoria de segurança de conteúdo.
Tipo: Capstone Idiomas: Python (backend, modelo do estudante), TypeScript (web app), SQL (grafo curricular via Postgres + Neo4j) Pré-requisitos: Fase 5 (PLN), Fase 6 (fala), Fase 11 (engenharia de LLM), Fase 12 (multimodal), Fase 14 (agentes), Fase 17 (infraestrutura), Fase 18 (segurança) Fases exercitadas: P5 · P6 · P11 · P12 · P14 · P17 · P18 Tempo: 30 horas
Problema
A tutoria adaptativa costumava ser um nicho de pesquisa em tecnologia educacional (ed-tech). Em 2026, tornou-se um produto de consumo. O Khanmigo está implantado na maioria dos distritos escolares dos EUA. O Duolingo Max atingiu dezenas de milhões de usuários ativos mensais (MAUs). O LearnLM / Gemini for Education do Google potencializa a tutoria no Google Classroom. O Quizlet Q-Chat fica ao lado dos flashcards. O Synthesis Tutor viralizou com sua proposta de tutoria para crianças curiosas. Os elementos comuns são: entrada multimodal (digitar, falar, fotografar equações), pedagogia socrática (perguntar primeiro, explicar depois), um modelo do estudante que se atualiza após cada interação e segurança estrita apropriada para a idade.
Você irá construir um desses tutores para uma coorte específica. A barra de medição é um estudo de eficácia real: pontuações de pré-teste e pós-teste ao longo de duas semanas com 10 estudantes. O loop de voz deve parecer natural (subpilha do capstone 03). A memória deve respeitar a privacidade. O filtro de segurança deve passar por um red-team ciente da COPPA para educação básica (K-12).
Conceito
Quatro componentes. Política do tutor é um loop socrático: quando o estudante pede a resposta, a política faz uma pergunta orientadora; quando ele acerta, ela passa para o próximo conceito; quando ele está travado, ela oferece uma dica estruturada (scaffolded hint). Modelo do estudante é o rastreamento bayesiano de conhecimento (BKT - Bayesian Knowledge Tracing, ou uma variante simples) que atualiza a probabilidade de domínio por nó do currículo após cada interação. Grafo curricular é um Neo4j de conceitos com arestas de pré-requisitos; a política percorre o grafo para escolher o próximo conceito. Memória é um armazenamento episódico + semântico (estilo agentmemory) que guarda interações passadas, erros e preferências.
A experiência do usuário (UX) é multimodal. Entrada de texto para respostas digitadas. Entrada de voz via LiveKit + Whisper (reutilize o capstone 03). Entrada de foto para problemas de matemática via dots.ocr ou PaliGemma 2. Saída de voz via Cartesia Sonic-2. A segurança usa o Llama Guard 4 mais um filtro apropriado para a idade (bloqueia conteúdo adulto, violência, automutilação) e uma política de retenção de memória ciente da COPPA.
O estudo de eficácia é o entregável. 10 estudantes, pré-teste e pós-teste, duas semanas. Relate o delta de ganho de aprendizagem e o intervalo de confiança. Compare com uma linha de base não adaptativa (o mesmo conteúdo entregue de forma linear, sem a política do tutor).
Arquitetura
learner device
|
+-- text -> web app
+-- voice -> LiveKit Agents (ASR + TTS)
+-- photo math -> dots.ocr / PaliGemma 2
|
v
tutor policy (LangGraph)
- Socratic decision head
- next-concept chooser (curriculum graph walk)
- hint scaffolder
- mastery update
|
v
learner model (BKT / item-response theory)
- per-concept mastery probability
- spaced-repetition scheduler (SM-2 or FSRS)
|
v
memory (agentmemory-style)
- episodic: every interaction
- semantic: learned mistakes, preferences
- retention policy: COPPA / GDPR aware
|
v
curriculum graph (Neo4j)
- prerequisite edges
- OER content attached
|
v
safety:
Llama Guard 4 + age-appropriate filter
memory access guarded by learner ID scope
Pilha
- Escolha da disciplina: álgebra de ensino fundamental/médio (K-12) ou introdução a Python (escolha uma para aprofundar)
- Política do tutor: LangGraph sobre Claude Sonnet 4.7 (com cache de prompt)
- Modelo do estudante: rastreamento bayesiano de conhecimento (BKT clássico) ou FSRS para espaçamento
- Grafo curricular: Neo4j de conceitos + arestas de pré-requisitos + conteúdo OER (Recursos Educacionais Abertos)
- Memória: vetor persistente estilo agentmemory + armazenamento episódico + semântico
- Voz: LiveKit Agents 1.0 + Cartesia Sonic-2 (reutilize a subpilha do capstone 03)
- Foto de matemática: dots.ocr ou PaliGemma 2 para reconhecimento de equações
- Segurança: Llama Guard 4 + filtro personalizado apropriado para a idade
- Avaliação: geração de perguntas no nível de Bloom, harness de pré/pós-teste, ferramentas de estudo de eficácia
Construção
Grafo curricular. Construa um Neo4j de 50 a 150 nós de conceito (por exemplo, álgebra básica de "linha numérica" a "fórmula quadrática") com arestas de pré-requisitos. Anexe conteúdo OER a cada nó (Open Textbook, OpenStax).
Modelo do estudante. Inicialize o rastreamento bayesiano de conhecimento com prioris (priors): guess (adivinhação), slip (deslize), learn-rate (taxa de aprendizado). Atualize o domínio de cada conceito após cada interação. Persista os dados por estudante.
Política do tutor. LangGraph com nós:
read_signal(a resposta do estudante estava correta / parcial / travada?),select_concept(percorre o grafo curricular escolhendo o conceito de maior prioridade),scaffold(prompt socrático),update_mastery.Memória. Cada interação é registrada em um armazenamento episódico. Erros e preferências são promovidos para a memória semântica. Política de retenção ciente da COPPA: exclusão automática após 1 ano, acessível pelos pais.
Caminho de voz. Worker do LiveKit Agents conectado à política do tutor. ASR via Whisper-v3-turbo. TTS via Cartesia Sonic-2. Suporte para interrupção de fala (barge-in) (reutilize a mecânica do capstone 03).
Caminho de foto de matemática. Faça upload ou capture uma imagem; execute o dots.ocr ou PaliGemma 2 para reconhecer a equação; forneça-a ao tutor como entrada estruturada.
Segurança. Cada saída do modelo passa pelo Llama Guard 4 + um filtro apropriado para a idade (bloqueia automutilação, conteúdo adulto, violência). Acesso à memória com escopo definido pelo ID do estudante; interface de acesso parental para exclusão de dados.
Estudo de eficácia. 10 estudantes, pré-teste (linha de base padronizada de 30 perguntas), duas semanas de interação com o tutor (3 sessões por semana), pós-teste. Compare com uma coorte de linha de base não adaptativa de 10 estudantes que recebem o mesmo conteúdo.
Relatórios de progresso semanais. Por estudante, gere automaticamente um PDF resumindo os tópicos explorados, trajetórias de domínio e as próximas etapas recomendadas.
Uso
learner: "I don't understand why 3x + 6 = 12 means x = 2"
[signal] stuck
[concept] 'isolating variables' (prerequisite: addition-subtraction-equality)
[scaffold] "what number would you subtract from both sides to start?"
learner: "6"
[signal] correct
[mastery] addition-subtraction-equality: 0.62 -> 0.77
[concept] continue 'isolating variables'
[scaffold] "great. now what is 3x / 3 equal to?"
Entrega
outputs/skill-ai-tutor.md é o entregável. Um tutor adaptativo específico para a disciplina com entrada multimodal, um modelo do estudante, memória, segurança e eficácia medida.
| Peso | Critério | Como é medido |
|---|---|---|
| 25 | Delta de ganho de aprendizagem | Delta de pré/pós-teste em um estudo de duas semanas com 10 estudantes |
| 20 | Fidelidade socrática | Pontuação de rubrica em amostras de transcrição |
| 20 | UX multimodal | Coerência de voz + foto + texto de ponta a ponta |
| 20 | Postura de segurança + privacidade | Taxa de aprovação do Llama Guard 4 + retenção ciente da COPPA |
| 15 | Amplitude do currículo e qualidade do grafo | Cobertura de conceitos + consistência do grafo de pré-requisitos |
| 100 |
Exercícios
Execute o estudo de eficácia com e sem o modelo do estudante adaptativo (ordem de conceitos aleatória). Relate o delta. Espera-se que o adaptativo vença, mas o tamanho do delta é o número interessante.
Adicione uma sondagem multimodal: a mesma pergunta de conceito entregue como texto, voz e foto. Meça se os estudantes convergem mais rapidamente com a modalidade que preferem.
Construa um painel (dashboard) para os pais: tópicos praticados, trajetórias de domínio, próximos conceitos, eventos de segurança (quaisquer acionamentos de guardrail). Alinhado com a COPPA.
Adicione um modo de alternância de idioma: o tutor aceita entrada em espanhol e ensina em espanhol. Meça a cobertura do X-Guard.
Teste o limite da privacidade da memória: verifique se o estudante A não consegue ver os dados do estudante B mesmo por meio de um ataque de reingestão de clipe de voz. Registre a tentativa de acesso e envie um alerta.
Termos-Chave
| Termo | O que dizem | O que realmente significa |
|---|---|---|
| Política socrática | "Pergunte, não entregue" | O tutor faz uma pergunta orientadora em vez de dar a resposta |
| Rastreamento bayesiano de conhecimento | "BKT" | Equações clássicas do modelo do estudante para a probabilidade de domínio por conceito |
| FSRS | "Free Spaced Repetition Scheduler" | Agendador de repetição espaçada de 2024, melhor que o SM-2 |
| Grafo curricular | "DAG de conceitos" | Neo4j de conceitos com arestas de pré-requisitos |
| Memória episódica | "Log por interação" | Cada interação armazenada para recuperação posterior |
| Memória semântica | "Loja de padrões aprendidos" | Erros e preferências compactados promovidos a partir da memória episódica |
| COPPA | "Lei de privacidade infantil" | Lei dos EUA que restringe a coleta de dados de crianças menores de 13 anos |
Leituras Adicionais
- Khanmigo (Khan Academy) — tutor de referência de consumo para educação básica (K-12)
- Duolingo Max — tutor de referência para aprendizado de idiomas
- Google LearnLM / Gemini for Education — modelo de referência hospedado
- Quizlet Q-Chat — referência alternativa
- Synthesis Tutor — referência de startup
- Algoritmo FSRS — agendador de repetição espaçada
- Rastreamento Bayesiano de Conhecimento — clássico de modelo do estudante
- LiveKit Agents — pilha de voz