RLHF feedback loop — Joey 報告核心機制
Joey 報告原話
「非同步 RLHF(來自人類回饋的強化學習)機制 — Joey 團隊將建置專屬通訊軟體訓練界面 …」
Lyra 提案設計
[ AI 解世博 ]
↓
隨機提問(每日 1-3 題)
↓
[ 解老師 LINE channel ]
↓
老師看 AI v1 答 + 修正 / 補充
↓
[ diff_log 表 ]
↓
自動 update dot-skill corpus + system prompt
↓
[ AI 解世博 v1.1 ]
↓
(loop)
對位 PG 表 schema 設計
CREATE TABLE jie_shibo_rlhf_log (
id SERIAL PRIMARY KEY,
question_id UUID,
question_text TEXT,
ai_answer_v1 TEXT,
teacher_correction TEXT,
diff_summary TEXT,
applied_at TIMESTAMPTZ,
ai_version_before TEXT,
ai_version_after TEXT
);對位雙合 PG NOTIFY
複用雙合 cases_changed NOTIFY 機制 → jie_shibo_rlhf_correction channel。
tags
technical-design rlhf-loop joey-report-explicit pg-notify-extension