AI Scientist-v2: Cái Máy Viết Luận Văn Thay Bạn

⚡ TLDR

Viết một bài báo nghiên cứu mất vài tháng. Hệ thống này làm qua đêm, tự động.
Không có nó, bạn cần nghiên cứu sinh, GPU cluster, tài khoản Semantic Scholar, và ba lần sửa LaTeX lúc 2 giờ sáng.
Dành cho researcher ML muốn khám phá ý tưởng mở mà không cần lặp thí nghiệm thủ công.
Khác v1, nó bỏ hoàn toàn template do con người viết và dùng best-first tree search để tự phân nhánh.
Bạn tả chủ đề trong file Markdown. Nó tạo giả thuyết, chạy thí nghiệm GPU, viết paper, gắn citation. Bạn nhận được PDF.

Phần 1: Cái Lab Chạy Ban Đêm

Hồi còn đi học tôi có thầy hướng dẫn hay nói: cái làm nghiên cứu chậm không phải phân tích. Là lặp. Bạn đặt giả thuyết. Chạy thử. Kết quả mơ hồ. Tinh chỉnh. Chạy lại. Ba tuần sau bạn không chắc mình đang test cái gì nữa.

Phần lớn công đoạn đó là cơ học. Bất kỳ thứ gì đủ kiên nhẫn đều có thể làm được.

AI Scientist-v2 là câu trả lời của SakanaAI cho câu hỏi: nếu ta tự động hóa phần đó thì sao?

Về vật lý, nó là một codebase Python. Bạn cho nó một file Markdown mô tả chủ đề nghiên cứu. Nó chạy hai giai đoạn: script tạo và đánh giá ý tưởng nghiên cứu so với kho tài liệu từ Semantic Scholar, rồi pipeline chính dùng best-first tree search (BFTS) để phân nhánh thí nghiệm. Cuối cùng, nó xuất ra PDF format LaTeX.

Không phải tóm tắt. Không phải review tài liệu. Một bài báo đầy đủ, có phần phương pháp, kết quả, citation, và đồ thị.

Mấy đứa em PhD thức khuya hơn, nhưng chúng không tính tiền API.

Phần 2: Cây Thí Nghiệm Tự Mở Rộng

Không phải LLM prompting đơn thuần. Là tree search.

Khi pipeline khởi động, nó sinh ra một tập “nút gốc”, mỗi nút đại diện cho một hướng tiếp cận thí nghiệm ban đầu. Từ mỗi nút, nó mở rộng ra: agent sửa code, chạy thí nghiệm, đánh giá kết quả, rồi quyết định nhánh nào đáng tiếp tục. Nó dùng Claude 3.5 Sonnet để điều phối phần thí nghiệm này.

# Mô tả chủ đề của bạn
python ai_scientist/perform_ideation_temp_free.py \
  --workshop-file "ai_scientist/ideas/my_topic.md" \
  --model gpt-4o-2024-05-13 \
  --max-num-generations 20 \
  --num-reflections 5

Script này tạo ra file JSON chứa danh sách ý tưởng được xếp hạng. Sau đó:

# Chạy pipeline chính
python launch_scientist_bfts.py \
  --load_ideas "ai_scientist/ideas/my_topic.json" \
  --load_code \
  --model_writeup o1-preview-2024-09-12 \
  --model_review gpt-4o-2024-11-20 \
  --num_cite_rounds 20

Cấu hình tree search nằm trong bfts_config.yaml. Bạn đặt num_workers (bao nhiêu nhánh chạy song song) và steps (tổng số nút cần khám phá). Ba workers, hai mươi mốt bước. Chạy vài giờ. Cuối cùng bạn có một PDF có timestamp.

Cây tìm kiếm trông như thế này:

Ý Tưởng Nghiên Cứu
├── Hướng A (nút gốc)
│   ├── Biến thể A1 → điểm 0.72
│   ├── Biến thể A2 → điểm 0.68 (bị cắt)
│   └── Biến thể A3 → điểm 0.81 (tốt nhất)
├── Hướng B (nút gốc)
│   └── Biến thể B1 → điểm 0.59 (bị cắt)
└── Hướng C (nút gốc)
    └── Biến thể C1 → điểm 0.77

Agent quản lý thí nghiệm quyết định mở rộng nhánh nào tiếp theo. Không ngẫu nhiên. Nó chọn tham lam theo giá trị ước tính.

Phần 3: V1 và V2 Khác Nhau Chỗ Nào

AI Scientist-v2 là phiên bản thứ hai. Phiên bản đầu dùng template do con người viết sẵn cho từng domain. Điều đó làm cho v1 đáng tin nhưng hẹp. Bạn chỉ chạy được trong các domain đã có template.

v2 bỏ template. Nó hoạt động trên các domain ML tùy ý. Đánh đổi được ghi rõ: tỷ lệ thành công thấp hơn, linh hoạt hơn.

	v1 (AI Scientist)	v2 (AI Scientist-v2)
Template	Bắt buộc theo từng domain	Không cần
Linh hoạt	Hẹp, phụ thuộc domain	Rộng, khám phá mở
Tỷ lệ thành công	Cao hơn	Thấp hơn
Dùng cho	Mục tiêu rõ, scope xác định	Khám phá khoa học mở
Tree search	Không	Best-first (BFTS)

Paper mà nó tạo ra trong lần chạy công khai đầu tiên được chấp nhận tại workshop ICLR 2025. Không phải vì tò mò. Qua peer review thật.

Phần 4: Chi Phí và Giới Hạn

Setup yêu cầu Linux với NVIDIA GPU, CUDA, và PyTorch. Không có đường nào chạy chỉ CPU. Bước tạo ý tưởng tốn vài đô API. Pipeline chính dùng Claude 3.5 Sonnet chạy khoảng $15-20 mỗi lần. Thêm ~$5 cho giai đoạn viết bằng o1.

Nếu chủ đề quá mơ hồ, thí nghiệm lan man. Nếu model không tự debug được code lỗi, nhánh đó bị bỏ (kiểm soát qua max_debug_depth và debug_prob). Không đảm bảo thành công. FAQ nói thẳng vậy.

Nó cũng chạy code do LLM viết trực tiếp trên máy bạn. README cảnh báo nên chạy trong Docker container. Không phải câu lệnh boilerplate. Hệ thống có thể spawn process, truy cập web, cài package trong quá trình thí nghiệm. Hãy sandbox trước.

License là “AI Scientist Source Code License” tùy chỉnh. Nếu bạn publish bất cứ thứ gì được tạo ra bởi hệ thống này, bạn có nghĩa vụ pháp lý phải khai báo AI authorship. Không tùy chọn.

Giới hạn thật sự không phải kỹ thuật. Là nhận thức. Hệ thống có thể lặp thí nghiệm, nhưng nó không thể nói cho bạn biết câu hỏi nghiên cứu có đáng hỏi không. Phần đó vẫn là của bạn.

Thầy tôi nói đúng về bottleneck là lặp. Ổng chỉ không biết trước rằng sau khi lặp bị tự động hóa, ta lại quay về đúng vấn đề đó nhưng một tầng cao hơn: tìm ra cái gì để lặp.