RLHF feedback loop — Joey 報告核心機制

Joey 報告原話

「非同步 RLHF（來自人類回饋的強化學習）機制 — Joey 團隊將建置專屬通訊軟體訓練界面 …」

Lyra 提案設計

[ AI 解世博 ]
      ↓
      隨機提問（每日 1-3 題）
      ↓
[ 解老師 LINE channel ]
      ↓
      老師看 AI v1 答 + 修正 / 補充
      ↓
[ diff_log 表 ]
      ↓
      自動 update dot-skill corpus + system prompt
      ↓
[ AI 解世博 v1.1 ]
      ↓
      (loop)

對位 PG 表 schema 設計

CREATE TABLE jie_shibo_rlhf_log (
  id SERIAL PRIMARY KEY,
  question_id UUID,
  question_text TEXT,
  ai_answer_v1 TEXT,
  teacher_correction TEXT,
  diff_summary TEXT,
  applied_at TIMESTAMPTZ,
  ai_version_before TEXT,
  ai_version_after TEXT
);

對位雙合 PG NOTIFY

複用雙合 cases_changed NOTIFY 機制 → jie_shibo_rlhf_correction channel。

Quartz 4

Explorer

非同步 RLHF feedback loop 設計

RLHF feedback loop — Joey 報告核心機制

Joey 報告原話

Lyra 提案設計

對位 PG 表 schema 設計

對位雙合 PG NOTIFY

tags

Graph View

Table of Contents

Backlinks