PDPA Redact Layer — 對解老師訓練 corpus 應用
風險 surface
解老師 18 年職涯 corpus 可能含:
- 客戶真實姓名 / 公司名(保險業期間 case study)
- 學員真實姓名(《超業攻略》50 案例可能匿名 / 可能化名)
- 業務同行真名(FB 觀點補給站)
對位雙合 twins-line-collector PDPA Redact Layer
完全可複用 9 + 2 regex pattern:
- tw_mobile / tw_landline / email / line_id / bank_account
- national_id / health_insurance / arc_number / passport
- 新加 dob / street_number
-
- Haiku NER(人名 / 地址抓取)
額外解老師專屬規則
- 學員 / 客戶名匿名化(「蘇大哥 → [NAME]大哥」role marker 保留)
- 公司名匿名化(「A 公司 / B 公司」化代號)
- 但「住商 / 國泰 / 台灣人壽 / 新光人壽」公開推薦企業不 mask(whitelist)
對位「公開 vs PII」邊界
對位雙合 patch B1「tenants/twins-manpower/public-contact-whitelist.yaml」同模式:
- tenants/jie-shibo/public-contact-whitelist.yaml
- 公開推薦企業 / FB callvalue / LINE OA 等公開資訊不 mask
tags
technical-design pdpa-extension reuse-twins-architecture whitelist-pattern