La Arquitectura de la Cognición Física: Del Principio Físico al Código Verificado

Nuestra Misión: IA Confiable para la Ciencia

El objetivo final de FeynmanGraph es crear un agente de IA que no solo procese información, sino que razone sobre problemas científicos complejos con total transparencia. Buscamos construir una herramienta que acelere el descubrimiento, permitiendo a los científicos validar hipótesis y derivar soluciones de manera verificable, eliminando las 'cajas negras' y las alucinaciones de la IA tradicional.

Arquitectura de Aprendizaje profundo: Agentes ReAct

Superamos la latencia y el coste de las APIs monolíticas con una Arquitectura Cognitiva de Microagentes. Esto garantiza verificabilidad paso a paso. Nuestra Fase 2 se centra en la especialización radical de modelos Gemma con QLoRA en HPC, transformando un prototipo costoso en un sistema escalable con Latencia ≤ 2s.

Diagrama de Flujo: Agente Verificable

[INPUT USUARIO]
Problema Científico

→

[LLM PLANIFICADOR: Gemma + QLoRA]
Thought: Descomposición
Action: Invocar Herramienta

→

[VALIDACIÓN]
SymPy / Matlab

↓

[OUTPUT: Solución 100% Verificada]

Benchmarks y Rendimiento

Tarea Clave	Métrica	Gemma-3 4B-IT¹	Gemma-3 27B-IT¹	Llama 3 8B (2024)¹	Llama 3 70B (2024)¹	Mistral 7B (v0.1)¹
Razonamiento Aritmético (GSM8K)	Exact Match Accuracy	52%	69%	47%	68%	45%
Matemáticas Avanzadas (MATH)	Exact Match Accuracy	68.7%	74.9%	65%	73%	64%
Generación de Código (HumanEval)	Pass@1 Accuracy	32%	48%	28%	46%	26%

Los resultados están documentados por Google DeepMind en el Gemma 3 Technical Report (Tabla 18), donde se comparan de forma estandarizada los modelos Gemma frente a lanzamientos open-source de referencia (Llama y Mistral). Aunque el Gemma-3 4B-IT es casi la mitad de grande que Llama 3 8B, lo supera con margen en tareas de conocimiento general, razonamiento matemático y código; el Gemma-3 27B-IT, por su parte, iguala o supera a Llama 3 70B en las mismas métricas manteniendo menos parámetros.

1. Google DeepMind (2025). Gemma 3 Technical Report, Tabla 18. Consulta el PDF oficial.
2. Google DeepMind (2025). Gemma 3 Technical Report, Tabla 5 (Chatbot Arena). Gemma-3-27B-IT registra un Elo de 1338 frente al 1257 de Llama 3.3 70B-Instruct, reafirmando la competitividad del modelo de 27B parámetros en evaluaciones humanas ciegas.

Stack y MLOps en HPC

Nuestro pipeline de MLOps garantiza reproducibilidad y despliegue de baja latencia desde el clúster HPC.

1

Entrenamiento Distribuido

Usamos el clúster LNS (NVIDIA A100) con FSDP/ZeRO-3 y QLoRA para un fine-tuning eficiente.

2

Validación Rigurosa

Validación Programática (100% coherencia) y Validación Cruzada (SymPy, Matlab, NumPy).

3

Despliegue de Baja Latencia

Inferencia optimizada con vLLM/TensorRT-LLM y cuantización INT4 para latencia p50 ≤ 2s.

Casos de Estudio: Agentes en Acción

Mecánica Teórica · Formalismo Hamiltoniano

Dinámica ReAct: el `planner_node` reconoce la estructura canónica del problema, divide el objetivo en tres pasos (identificar coordenadas generalizadas, construir el lagrangiano y efectuar la transformada de Legendre) y delega cada sub-tarea. `tensor_physics_agent` genera las expresiones simbólicas de energía cinética y potencial, mientras que `algebra_agent` opera sobre los tensores para obtener el hamiltoniano.

Verificación programática: el pipeline SymPy confirma que {q_i, p_j} = δ_ij, evalúa los corchetes de Poisson y comprueba que las ecuaciones de Hamilton reproducen el sistema original. El diff simbólico se versiona en MLflow junto con las trazas ReAct.

Resultado: Hamiltoniano validado paso a paso con derivadas exactas y bitácora reproducible para auditoría.

Mecánica Estadística · Modelo de Ising 1D

Dinámica ReAct: ante la consigna “calcular energía libre exacta”, el `planner_node` selecciona el método de matriz de transferencia por heurísticas de complejidad. El `calculus_agent` deriva la función de partición Z = Tr(T^N), mientras que `symbolic_linalg_agent` diagonaliza T y obtiene sus autovalores.

Verificación programática: la expresión de energía libre f = -(k_BT) ln(λ_max) se evalúa numéricamente para distintos N, corroborando la convergencia y la ausencia de transición de fase (∂²f/∂T² ≠ singular). Los resultados quedan registrados en DVC junto con el conjunto de temperaturas usado.

Resultado: reporte trazable que replica el argumento clásico de Onsager en 1D y garantiza interpretabilidad física.

Se Busca Talento: Únete a la Vanguardia del Aprendizaje profundo

¿Eres un apasionado del Aprendizaje profundo, la ciencia de datos o el MLOps? Buscamos ingenieros e investigadores para ayudarnos a optimizar arquitecturas, acelerar la inferencia y construir la próxima generación de modelos de IA para la ciencia. Si te motivan los desafíos técnicos de vanguardia, este es tu lugar.

Colabora en la Investigación

FAQ para Ingenieros de Aprendizaje profundo

¿Qué modelos sirven como base y con qué evidencia?

Fine-tuneamos Gemma-3 en sus variantes 4B y 27B porque los reportes oficiales (Tabla 18 del Gemma 3 Technical Report) muestran ventajas de +4-10 pp vs. Llama 3 8B/70B en MMLU, GSM8K y HumanEval. Adicionalmente, Gemma-3-27B-IT anota 1338 de Elo en Chatbot Arena, 81 puntos por encima de Llama 3.3 70B-Instruct, avalando la elección incluso en evaluaciones humanas.

¿Cómo aseguran trazabilidad de datos y experimentos?

Los datasets crudos residen en un bucket versionado; cada subset de entrenamiento pasa por DVC con hashes SHA256. MLflow registra hiperparámetros, métricas y artefactos (checkpoints QLoRA, logs ReAct). Los notebooks de validación se firman con commit ID y se empaquetan en contenedores reproducibles (Nix/Poetry).

¿Qué cuello de botella técnico dominan hoy?

El balance precisión/latencia en cadenas ReAct largas. Nuestro objetivo operativo es p50 ≤ 2 s con al menos 6 pensamientos por consulta STEM. Exploramos speculative decoding con Gemma-3 4B como “draft model” y distilación de políticas para reducir pasos sin degradar la exactitud simbólica.

¿Cuál es la hoja de ruta comunicada?

Fase 2 (Q1–Q2 2025): consolidar Gemma-3 27B-IT con adapters QLoRA y lograr despliegues INT4 p95 ≤ 3.5 s.
Fase 3 (Q3 2025): extender agentes a Química y Biología; integrar simuladores cuantitativos (Gaussian, PySCF).
Fase 4 (2026): publicar librería abierta de agentes verificables y estudios de impacto en aulas piloto.

¿Qué entregables open-source comprometen?

Planeamos liberar:

Conjuntos curados para entrenamiento en razonamiento simbólico y físico (bajo licencias CC-BY-NC).
Adapter weights QLoRA de los agentes especializados y scripts de inferencia vLLM.
Playbooks de validación reproducible (SymPy, NumPyro, herramientas HPC) y plantillas ReAct auditables.