EntityProcess · christso · May 4, 2026 · May 2, 2026 · May 2, 2026 · May 2, 2026
diff --git a/.agentv/targets.yaml b/.agentv/targets.yaml
@@ -151,3 +151,24 @@ targets:
     provider: openrouter
     api_key: ${{ OPENROUTER_API_KEY }}
     model: ${{ OPENROUTER_MODEL }}
+
+  # ── MiMo (Xiaomi) via OpenRouter ───────────────────────────────────
+  - name: mimo
+    provider: openrouter
+    api_key: ${{ OPENROUTER_API_KEY }}
+    model: xiaomi/mimo-v2.5-pro
+    grader_target: grader
+
+  - name: mimo-flash
+    provider: openrouter
+    api_key: ${{ OPENROUTER_API_KEY }}
+    model: xiaomi/mimo-v2-flash
+    grader_target: grader
+
+  - name: mimo-direct
+    provider: openai
+    base_url: https://token-plan-sgp.xiaomimimo.com/v1
+    api_key: ${{ XIAOMI_MIMO_API_KEY }}
+    model: xiaomi/mimo-v2.5-pro
+    max_output_tokens: 131072
+    grader_target: grader
diff --git a/apps/cli/package.json b/apps/cli/package.json
@@ -28,11 +28,11 @@
     "test:watch": "bun test --watch"
   },
   "dependencies": {
-    "@ai-sdk/openai": "^3.0.0",
     "@anthropic-ai/claude-agent-sdk": "^0.2.49",
     "@github/copilot-sdk": "^0.1.25",
     "@hono/node-server": "^1.19.11",
     "@inquirer/prompts": "^8.2.1",
+    "@mariozechner/pi-ai": "^0.72.1",
     "@openai/codex-sdk": "^0.104.0",
     "cmd-ts": "^0.14.3",
     "dotenv": "^16.4.5",

diff --git a/apps/cli/src/templates/.agentv/targets.yaml b/apps/cli/src/templates/.agentv/targets.yaml
@@ -63,3 +63,34 @@ targets:
     cwd: ${{ CLI_EVALS_DIR }}
     healthcheck:
       command: uv run ./mock_cli.py --healthcheck
+
+  # ── MiMo (Xiaomi) via OpenRouter ───────────────────────────────────
+  # All MiMo models are available through OpenRouter with OpenAI-compatible API.
+  # See https://openrouter.ai/xiaomi/mimo-v2.5-pro for pricing and limits.
+  #
+  # Models:
+  #   mimo-v2.5-pro    — 1M context, 131K output, flagship
+  #   mimo-v2-pro      — 1M context, ~131K output
+  #   mimo-v2.5        — 1M context, ~131K output, multimodal
+  #   mimo-v2-flash    — 262K context, 65K output, fast MoE (open-source)
+  #   mimo-v2-omni     — 262K context, 65K output, omni-modal
+  - name: mimo
+    provider: openrouter
+    api_key: ${{ OPENROUTER_API_KEY }}
+    model: xiaomi/mimo-v2.5-pro
+
+  - name: mimo-flash
+    provider: openrouter
+    api_key: ${{ OPENROUTER_API_KEY }}
+    model: xiaomi/mimo-v2-flash
+
+  # ── Direct provider (not through OpenRouter) ───────────────────────
+  # For providers not in pi-ai's model registry, set max_output_tokens
+  # to match your model's actual output limit. Without this, the default
+  # is 16K which may cap output below the model's capability.
+  # - name: mimo-direct
+  #   provider: openai
+  #   base_url: https://token-plan-sgp.xiaomimimo.com/v1
+  #   api_key: ${{ XIAOMI_MIMO_API_KEY }}
+  #   model: xiaomi/mimo-v2.5-pro
+  #   max_output_tokens: 131072
diff --git a/apps/cli/test/commands/results/export-e2e-providers.test.ts b/apps/cli/test/commands/results/export-e2e-providers.test.ts
@@ -3,7 +3,7 @@
  *
  * Validates that reasoning tokens, cached tokens, duration, cost,
  * and other metrics survive the JSONL → artifact conversion pipeline
- * for: claude-cli, codex, copilot-cli, pi-coding-agent, and llm (ai-sdk).
+ * for: claude-cli, codex, copilot-cli, pi-coding-agent, and llm (pi-ai).
  */
 import { afterEach, beforeEach, describe, expect, it } from 'bun:test';
 import { existsSync, mkdtempSync, readFileSync, rmSync } from 'node:fs';

diff --git a/bun.lock b/bun.lock
diff --git a/package.json b/package.json
@@ -39,8 +39,5 @@
     "tsup": "8.3.5",
     "typescript": "5.8.3",
     "yaml": "^2.8.3"
-  },
-  "dependencies": {
-    "@openrouter/ai-sdk-provider": "^2.3.3"
   }
 }
diff --git a/packages/core/package.json b/packages/core/package.json
@@ -42,14 +42,9 @@
   "dependencies": {
     "@agentclientprotocol/sdk": "^0.14.1",
     "@agentv/eval": "workspace:*",
-    "@ai-sdk/anthropic": "^3.0.0",
-    "@ai-sdk/azure": "^3.0.0",
-    "@ai-sdk/google": "^3.0.0",
-    "@ai-sdk/openai": "^3.0.0",
     "@github/copilot-sdk": "^0.1.25",
+    "@mariozechner/pi-ai": "^0.72.1",
     "@openai/codex-sdk": "^0.104.0",
-    "@openrouter/ai-sdk-provider": "^2.3.1",
-    "ai": "^6.0.0",
     "fast-glob": "^3.3.3",
     "json5": "^2.2.3",
     "micromatch": "^4.0.8",

diff --git a/packages/core/src/evaluation/generators/rubric-generator.ts b/packages/core/src/evaluation/generators/rubric-generator.ts
@@ -1,7 +1,7 @@
-import { generateText } from 'ai';
 import { z } from 'zod';
 
 import type { Provider } from '../providers/types.js';
+import { extractLastAssistantContent } from '../providers/types.js';
 import type { RubricItem } from '../types.js';
 
 const rubricItemSchema = z.object({
@@ -24,6 +24,10 @@ export interface GenerateRubricsOptions {
 
 /**
  * Generate rubrics from expected outcome using an LLM.
+ *
+ * Calls the provider through `Provider.invoke()` — the LLM call itself is
+ * a single non-streaming, non-tool-using completion. JSON output is parsed
+ * with up to 3 retries to absorb model formatting variance.
  */
 export async function generateRubrics(
   options: GenerateRubricsOptions,
@@ -32,11 +36,6 @@ export async function generateRubrics(
 
   const prompt = buildPrompt(criteria, question, referenceAnswer);
 
-  const model = provider.asLanguageModel?.();
-  if (!model) {
-    throw new Error('Provider does not support language model interface');
-  }
-
   const system = `You are an expert at creating evaluation rubrics.
 You must return a valid JSON object matching this schema:
 {
@@ -55,12 +54,12 @@ You must return a valid JSON object matching this schema:
 
   for (let attempt = 1; attempt <= 3; attempt++) {
     try {
-      const { text } = await generateText({
-        model,
-        system,
-        prompt,
+      const response = await provider.invoke({
+        question: prompt,
+        systemPrompt: system,
       });
 
+      const text = extractLastAssistantContent(response.output);
       const cleaned = text.replace(/```json\n?|```/g, '').trim();
       result = rubricGenerationSchema.parse(JSON.parse(cleaned));
       break;

diff --git a/packages/core/src/evaluation/graders/composite.ts b/packages/core/src/evaluation/graders/composite.ts
@@ -1,5 +1,3 @@
-import { generateText } from 'ai';
-
 import { extractLastAssistantContent } from '../providers/types.js';
 import type {
   AssertionEntry,
@@ -340,30 +338,6 @@ export class CompositeGrader implements Grader {
     };
 
     try {
-      const model = graderProvider.asLanguageModel?.();
-      if (model) {
-        const { text } = await generateText({
-          model,
-          system: systemPrompt,
-          prompt: userPrompt,
-        });
-
-        const data = freeformEvaluationSchema.parse(parseJsonFromText(text));
-        const score = clampScore(data.score);
-        const assertions: AssertionEntry[] = Array.isArray(data.assertions)
-          ? data.assertions.slice(0, 8)
-          : [];
-
-        return {
-          score,
-          verdict: scoreToVerdict(score),
-          assertions,
-          expectedAspectCount: Math.max(assertions.length, 1),
-          graderRawRequest,
-          scores,
-        };
-      }
-
       const response = await graderProvider.invoke({
         question: userPrompt,
         systemPrompt,