LINE 訓練介面 — 對位 Joey 報告非同步 RLHF

Joey 報告原話

「Joey 團隊將建置專屬通訊軟體訓練界面 … 系統將每日隨機發送問題給老師。分身先行給出答案,由老師進行糾正或補充。」 「設定通訊軟體訓練環境(LINE 或同等工具),啟動日常『隨機提問與校正』機制。」

複用雙合 twins-line-collector 架構

雙合 component解老師訓練介面對應
LINE webhook signature 驗證同 — 解老師訓練專屬 channel
parse messageEvents同 — 老師回覆 / AI 隨機提問
PDPA Redact Layer同 — 但對象是「老師私訓 data」非「客戶 data」
messages 表 insert ON CONFLICT DO NOTHING同 — idempotent 處理
PG NOTIFY → sheet-sync改 — 同步到「老師校正記錄」表 / 進 dot-skill corpus update
dashboard schema-driven改 — 顯示「AI 答 vs 老師校正」diff

新組件需求

  1. 隨機提問排程器 — 每日從 questions pool 抽 1-3 題發給老師
  2. AI 答 vs 老師校正 diff 模型 — 學員模式:先 AI 答,再老師覆核 → 寫 diff_log
  3. 「反嗆」模組 — Joey 報告原話「分身可能會依據既有心法反嗆本尊」— AI 必須能對老師回應做 push-back 形成辯證
  4. 校正寫回 dot-skill corpus — 老師糾正後自動 update jie-shibo skill

Lyra 工程估算

  • M1-M2 LINE webhook + PDPA + insertMessage:100% 複用(已 done 雙合)
  • 隨機提問排程器:新增 ~50 LOC (cron + question_pool 表)
  • diff 比對 + 寫回 dot-skill:新增 ~150 LOC(要看 dot-skill version_manager.py API)
  • 「反嗆」模組:新增 ~80 LOC(system prompt 加 push-back 規則)

Total: 估 300-500 LOC4-8 hr 工程(不算測試 / debug)

等 Joey 拍

  • 訓練介面是 LINE 還是 Discord 還是純 web app?
  • 老師熟悉度(LINE 必熟,Discord 不一定)

tags

technical-design line-interface rlhf-mechanism reuse-twins-architecture effort-estimate