NVIDIA lần này thật sự không chơi đẹp, trực tiếp tung ra một quái vật hiểu video mã nguồn mở


Nemotron 3 Nano Omni, xử lý video nhanh đến mức phi thường: chỉ trong 1 giờ có thể hoàn thành nội dung của 10 giờ video, nhanh hơn tốc độ phát 10 lần
Chủ yếu dựa vào công nghệ tích chập 3D, không còn quét từng khung hình ngu ngốc nữa, mà là "nuốt chửng" dữ liệu theo khối, hiệu quả trực tiếp tăng vọt
Sau này những cảnh này thật sự đã mắt:
Tìm người "không đội mũ bảo hiểm và đang tranh cãi" trong giám sát suốt ngày
Xác định chính xác cảnh "có tiếng sóng biển và chụp hoàng hôn" trong hàng trăm đoạn tư liệu
Nghe một đoạn video vận hành máy móc có thể chẩn đoán tiếng ồn bất thường của động cơ
Chỉ vài phút giúp bạn xử lý xong, còn tiết kiệm cả tiền của Whisper nữa
Nhưng cần chú ý, cậu bạn này là kiểu học lệch điển hình
Điểm kỹ năng đều tập trung vào hiểu và xử lý đa mô thức, muốn dùng nó để viết mã hoặc làm các suy luận văn bản phức tạp, có thể còn kém hơn một số mô hình nhẹ nhàng chỉ xử lý văn bản thuần túy
Kết luận: đừng xem nó như một lập trình viên toàn năng, nhưng trong các cảnh thực chiến như phân tích âm thanh video, gắn nhãn dữ liệu hàng loạt, nó chắc chắn là thần trong giới mã nguồn mở
Các anh em làm AI video, đa mô thức, nhất định phải thử
Dự án đã để trong phần bình luận👇
NVDA3,61%
NANO-1,69%
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim