PDPA Redact Layer — 對解老師訓練 corpus 應用

風險 surface

解老師 18 年職涯 corpus 可能含:

  • 客戶真實姓名 / 公司名(保險業期間 case study)
  • 學員真實姓名(《超業攻略》50 案例可能匿名 / 可能化名)
  • 業務同行真名(FB 觀點補給站)

對位雙合 twins-line-collector PDPA Redact Layer

完全可複用 9 + 2 regex pattern:

  • tw_mobile / tw_landline / email / line_id / bank_account
  • national_id / health_insurance / arc_number / passport
  • 新加 dob / street_number
    • Haiku NER(人名 / 地址抓取)

額外解老師專屬規則

  • 學員 / 客戶名匿名化(「蘇大哥 → [NAME]大哥」role marker 保留)
  • 公司名匿名化(「A 公司 / B 公司」化代號)
  • 但「住商 / 國泰 / 台灣人壽 / 新光人壽」公開推薦企業不 mask(whitelist)

對位「公開 vs PII」邊界

對位雙合 patch B1「tenants/twins-manpower/public-contact-whitelist.yaml」同模式:

  • tenants/jie-shibo/public-contact-whitelist.yaml
  • 公開推薦企業 / FB callvalue / LINE OA 等公開資訊不 mask

tags

technical-design pdpa-extension reuse-twins-architecture whitelist-pattern