Laboratorio de investigación sobre Recurrent-Depth Transformers: razonamiento latente, MoE, atención MLA/GQA y halting adaptativo.
La profundidad útil no viene de apilar capas distintas, sino de aplicar varias veces el mismo bloque compartido durante un único forward pass.
Cada componente seleccionado por coherencia con la literatura más reciente en transformers recurrentes y razonamiento latente.
GQA reduce caché KV compartiendo pares K/V. MLA comprime la ruta KV en un latente de bajo rango. Conmutable vía configuración.
Routed experts top-K + shared experts siempre activos. Hereda de DeepSeekMoE la segmentación fina y aislamiento de expertos compartidos.
Estabilidad espectral con A ∈ (0,1) por parametrización log-space. Parche numérico incluido para evitar saturación float32 en el borde.
Adaptive Computation Time aprende probabilidad de halting por posición. Algunas posiciones dejan de acumular actualizaciones antes que otras.
Cada iteración modifica su comportamiento con un adaptador LoRA dependiente de la iteración. Enriquece sin multiplicar parámetros estáticos.
Arquitectura de tres etapas: bloques densos de entrada y salida ejecutados una vez, con bloque recurrente compartido aplicado N veces.
Validación práctica en CPU con PyTorch 2.10.0+cpu. Configuraciones pequeñas verificadas.
test_spectral_radius_stable_after_large_grad_step falla por redondeo float32. Parche propuesto resuelve sin alterar la arquitectura.Procedimiento mínimo sin adornos ni suposiciones sobre lo que el repositorio todavía no ofrece.
git clone https://github.com/kyegomez/OpenMythos.git
cd OpenMythos
python -m venv .venv
source .venv/bin/activate
python -m pip install -U pip
pip install -r requirements.txtpython example.py
# o con verificación compacta:
python openmythos_quickstart.pypytest -q
# Excluir fallo numérico conocido:
pytest -q -k "not test_spectral_radius_stable_after_large_grad_step"Guía técnica, script de verificación y parche de estabilidad LTI.
Demostrar overfitting, pérdida estable y comportamiento predecible al aumentar n_loops antes de escalar.
Fork del repositorio, etiqueta de commit y requirements-lock para reproducibilidad total.
Aplicar parche LTI para evitar que A alcance exactamente 1.0 en float32.
pyproject.toml, instalación editable y CLI simple.
Definir tokenizer, dataset y formato causal LM.
Script train.py con warmup, clipping, checkpoints y logging.
Curvas vs loops, comparación GQA vs MLA, ablations MoE/LoRA/ACT.
Comparativas contra transformers densos de igual presupuesto de FLOPs.
MythosForge es un proyecto abierto. Hay muchas formas de colaborar, desde experimentos hasta documentación.
Encuentra bugs, errores en la documentación o mejoras posibles. Abre un issue con contexto claro y pasos para reproducir.
Parches de código, mejoras de arquitectura, nuevos experimentos o integraciones. Lee la guía CONTRIBUTING.md antes.
Propone experimentos, comparte resultados o debate sobre la arquitectura RDT en las discusiones del repositorio.
Servidor FastAPI con datos reales, OpenAPI automático y endpoint de inferencia con OpenMythos.
GET /api/v1/healthEstado del servicio, versión, disponibilidad de PyTorch y OpenMythos.
GET /api/v1/architecture
GET /api/v1/components
GET /api/v1/validation
GET /api/v1/roadmap
GET /api/v1/referencesTodos los datos del sitio servidos como JSON estructurado con schemas Pydantic.
POST /api/v1/inference
{
"prompt": "...",
"attn_type": "gqa",
"n_loops": 4
}Genera texto con el modelo OpenMythos real. Requiere PyTorch instalado.
/docs → Swagger UI
/redoc → ReDoc
/openapi.json → SchemaDocumentación interactiva generada automáticamente desde los schemas Pydantic.
pip install -r api/requirements.txt && python -m api
Trabajos clave que sostienen la hipótesis técnica.