LINE 訓練介面 — 對位 Joey 報告非同步 RLHF
Joey 報告原話
「Joey 團隊將建置專屬通訊軟體訓練界面 … 系統將每日隨機發送問題給老師。分身先行給出答案,由老師進行糾正或補充。」 「設定通訊軟體訓練環境(LINE 或同等工具),啟動日常『隨機提問與校正』機制。」
複用雙合 twins-line-collector 架構
| 雙合 component | 解老師訓練介面對應 |
|---|---|
| LINE webhook signature 驗證 | 同 — 解老師訓練專屬 channel |
| parse messageEvents | 同 — 老師回覆 / AI 隨機提問 |
| PDPA Redact Layer | 同 — 但對象是「老師私訓 data」非「客戶 data」 |
| messages 表 insert ON CONFLICT DO NOTHING | 同 — idempotent 處理 |
| PG NOTIFY → sheet-sync | 改 — 同步到「老師校正記錄」表 / 進 dot-skill corpus update |
| dashboard schema-driven | 改 — 顯示「AI 答 vs 老師校正」diff |
新組件需求
- 隨機提問排程器 — 每日從 questions pool 抽 1-3 題發給老師
- AI 答 vs 老師校正 diff 模型 — 學員模式:先 AI 答,再老師覆核 → 寫
diff_log表 - 「反嗆」模組 — Joey 報告原話「分身可能會依據既有心法反嗆本尊」— AI 必須能對老師回應做 push-back 形成辯證
- 校正寫回 dot-skill corpus — 老師糾正後自動 update jie-shibo skill
Lyra 工程估算
- M1-M2 LINE webhook + PDPA + insertMessage:100% 複用(已 done 雙合)
- 隨機提問排程器:新增 ~50 LOC (cron + question_pool 表)
- diff 比對 + 寫回 dot-skill:新增 ~150 LOC(要看 dot-skill version_manager.py API)
- 「反嗆」模組:新增 ~80 LOC(system prompt 加 push-back 規則)
Total: 估 300-500 LOC,4-8 hr 工程(不算測試 / debug)
等 Joey 拍
- 訓練介面是 LINE 還是 Discord 還是純 web app?
- 老師熟悉度(LINE 必熟,Discord 不一定)
tags
technical-design line-interface rlhf-mechanism reuse-twins-architecture effort-estimate