Skip to content
This repository has been archived by the owner on May 20, 2023. It is now read-only.

Latest commit

 

History

History
21 lines (13 loc) · 1.07 KB

README.md

File metadata and controls

21 lines (13 loc) · 1.07 KB

Cách lấy mẫu hiệu quả để huấn luyện mô hình ngôn ngữ

  • Lấy mẫu hiệu quả để cover được nhiều dữ liệu trong cùng một epoch

    • Có sự trùng lặp giữa các mẫu hay hay không?
    • Trùng lặp bao nhiêu là vừa? 1/2, 2/3 ...
  • Huấn luyện trên news (phổ thông) trước rồi tới lawpedia (hiếm) hay trộn lẫn theo 1 tỉ lên ưu tiên hiếm?

  • Đang chạy phải dừng lại cần quản biết đã lấy mẫu tới đâu

TODOs

  • Tìm hiểu cách lấy mẫu của cramming

    • Chọn mẫu tốt train trước
    • Trải các mẫu trên một pipeline, cách nhau bởi <sep> token
    • Chạy một lượt từ đầu tới cuối cửa sổ dịch chuyển là ctx_len (1-epoch: mỗi token chỉ train 1 lần)
  • [-] Tìm hiểu cách lấy mẫu của gpt-neox

  • [-] Tìm hiểu cách lấy mẫu của rwkv_the_pile