Phân đoạn hình ảnh là gì
Chia hình ảnh thành các vùng ngữ nghĩa
Phân đoạn hình ảnh là một tác vụ thị giác máy tính trong đó hình ảnh được chia thành các vùng hoặc đối tượng riêng biệt. Mỗi pixel được gán một nhãn lớp hoặc thuộc về đối tượng.
Các loại phân đoạn
- Ngữ nghĩa — phân loại từng pixel (tất cả ô tô = một lớp)
- Phân đoạn thể hiện — xác định các đối tượng riêng lẻ (mỗi ô tô = đối tượng riêng)
- Toàn cảnh — kết hợp phân đoạn ngữ nghĩa và thể hiện
Kiến trúc mô hình
- U-Net — bộ mã hóa-giải mã với kết nối bỏ qua
- Mask R-CNN — phát hiện + phân đoạn đối tượng
- DeepLab — tích chập giãn nở cho ngữ cảnh lớn hơn
- Segment Anything (SAM) — mô hình phổ quát từ Meta
Ứng dụng
- Lái xe tự động — phát hiện đường, người đi bộ, phương tiện
- Hình ảnh y tế — phân đoạn cơ quan, khối u
- Chỉnh sửa ảnh — xóa nền, thay thế đối tượng
- Robot — hiểu môi trường