📖 Nội dung bài học
[
chi tiết
2
tải về
Tóm tắt
Khả năng thị giác (vision capabilities) của Claude cho phép bạn đưa hình ảnh vào tin nhắn và yêu cầu Claude phân tích chúng theo vô số cách. Bạn có thể yêu cầu Claude mô tả những gì có trong ảnh, so sánh nhiều ảnh, đếm đối tượng hoặc thực hiện các tác vụ phân tích hình ảnh phức tạp.
Cơ bản về xử lý hình ảnh

Có một số giới hạn quan trọng cần lưu ý khi làm việc với hình ảnh:
- Tối đa 100 hình ảnh trong tất cả các tin nhắn của một request duy nhất.
- Kích thước tối đa 5MB mỗi ảnh.
- Khi gửi một ảnh: chiều cao/chiều rộng tối đa là 8000px.
- Khi gửi nhiều ảnh: chiều cao/chiều rộng tối đa là 2000px.
- Hình ảnh có thể được đưa vào dưới dạng mã hóa base64 hoặc một URL dẫn đến ảnh.
- Mỗi hình ảnh được tính là token dựa trên kích thước:
tokens = (width px × height px) / 750
Để gửi một hình ảnh cho Claude, bạn đưa một khối hình ảnh (image block) vào tin nhắn người dùng (user prompt) cùng với các khối văn bản (text block). Đây là cấu trúc:
with open("image.png", "rb") as f:
image_bytes = base64.standard_b64encode(f.read()).decode("utf-8")
add_user_message(messages, [
# Khối hình ảnh (Image Block)
{
"type": "image",
"source": {
"type": "base64",
"media_type": "image/png",
"data": image_bytes,
}
},
# Khối văn bản (Text Block)
{
"type": "text",
"text": "Bạn thấy gì trong hình ảnh này?"
}
])
Luồng tin nhắn (Message Flow)

Cuộc hội thoại hoạt động giống hệt như các tương tác chỉ có văn bản. Server của bạn gửi một tin nhắn người dùng chứa cả khối hình ảnh và văn bản tới Claude, và Claude phản hồi bằng một khối văn bản chứa nội dung phân tích của nó.
Kỹ thuật Prompting

Chìa khóa để có kết quả tốt với hình ảnh là áp dụng các kỹ thuật prompt engineering tương tự như khi dùng với văn bản. Các prompt đơn giản thường dẫn đến kết quả kém. Ví dụ, hỏi "Có bao nhiêu viên bi trong ảnh này?" có thể trả về kết quả đếm sai.
Bạn có thể cải thiện đáng kể độ chính xác của Claude bằng cách:
- Cung cấp hướng dẫn chi tiết và các bước phân tích.
- Sử dụng ví dụ one-shot hoặc multi-shot.
- Chia nhỏ các tác vụ phức tạp thành các bước nhỏ hơn.
Phân tích từng bước (Step-by-Step Analysis)

Thay vì một câu hỏi đơn giản, hãy cung cấp cho Claude một phương pháp luận:
Hãy phân tích hình ảnh các viên bi này và xác định số lượng chính xác bằng phương pháp sau:
1. Bắt đầu bằng cách xác định từng viên bi riêng biệt. Gán cho mỗi viên một con số khi bạn nhận diện được nó.
2. Xác minh kết quả bằng cách đếm theo một phương pháp khác. Bắt đầu từ góc dưới bên trái và thực hiện theo từng hàng, từ trái sang phải.
Số lượng viên bi chính xác và đã được xác minh trong ảnh này là bao nhiêu?
Ví dụ One-Shot

Bạn cũng có thể cải thiện độ chính xác bằng cách cung cấp các ví dụ trong tin nhắn. Đưa vào một hình ảnh đã biết số lượng, nêu câu trả lời đúng, sau đó mới hỏi về hình ảnh mục tiêu. Điều này giúp Claude có một điểm tham chiếu cho kiểu phân tích mà bạn mong muốn.
Ví dụ thực tế: Đánh giá rủi ro hỏa hoạn

Đây là một ứng dụng thực tế: tự động hóa việc đánh giá rủi ro hỏa hoạn cho bảo hiểm nhà ở. Thay vì cử giám định viên đến từng bất động sản, các công ty bảo hiểm có thể sử dụng hình ảnh vệ tinh và sự phân tích của Claude.
Hệ thống phân tích hình ảnh vệ tinh để xác định:
- Cây cối dày đặc, mọc sát nhau gần nơi ở.
- Các tuyến đường tiếp cận khó khăn cho dịch vụ khẩn cấp.
- Các cành cây vươn ra phía trên mái nhà.
Thay vì một prompt đơn giản như "đưa ra điểm rủi ro hỏa hoạn", một prompt có cấu trúc tốt sẽ chia nhỏ việc phân tích thành các bước cụ thể:
Phân tích hình ảnh vệ tinh đính kèm của một bất động sản theo các bước cụ thể sau:
1. Xác định nơi ở: Tìm cấu trúc nhà chính trên khu đất bằng cách quan sát:
- Cấu trúc mái lớn nhất
- Các đặc điểm dân cư điển hình (kết nối đường lái xe, hình học đều đặn)
- Phân biệt với các cấu trúc khác (nhà để xe, nhà kho, hồ bơi)
2. Phân tích cây vươn trên mái: Kiểm tra tất cả các cây gần nhà chính:
- Xác định bất kỳ cây nào có tán vươn trực tiếp lên bất kỳ phần nào của mái nhà
- Ước tính tỷ lệ phần trăm mái nhà bị che phủ bởi các cành cây vươn ra (0-25%, 25-50%, 50-75%, 75%+)
- Lưu ý các khu vực có cành vươn đặc biệt dày đặc
3. Đánh giá rủi ro hỏa hoạn: Đối với bất kỳ cây nào vươn trên mái, hãy đánh giá:
- Khả năng dễ bị tổn thương do cháy rừng (các điểm bắt tia lửa, đường dẫn nhiên liệu liên tục đến cấu trúc)
- Khoảng cách gần ống khói, lỗ thông hơi hoặc các khe hở mái khác nếu có thể nhìn thấy
- Các khu vực mà cành cây tạo thành "cầu nối" giữa thảm thực vật hoang dã và cấu trúc nhà
4. Xác định không gian phòng thủ: Đánh giá cấu trúc thực vật tổng thể của bất động sản:
- Xác định xem các cây có kết nối với nhau tạo thành một tán lá liên tục phía trên hoặc gần nhà không
- Lưu ý bất kỳ "thang nhiên liệu" (fuel ladders) rõ ràng nào (thảm thực vật có thể dẫn lửa từ mặt đất lên cây rồi lên mái nhà)
5. Xếp hạng rủi ro hỏa hoạn: Dựa trên phân tích của bạn, hãy gán Xếp hạng Rủi ro Hỏa hoạn từ 1-4:
- Hạng 1 (Rủi ro thấp): Không có cành cây vươn trên mái, không gian phòng thủ quanh nhà tốt
- Hạng 2 (Rủi ro trung bình): Cành vươn tối thiểu (<25% mái nhà), có khoảng cách giữa các tán cây
- Hạng 3 (Rủi ro cao): Cành vươn đáng kể (25-50% mái nhà), tán cây kết nối nhau, nhiều điểm dễ bị tổn thương
- Hạng 4 (Rủi ro nghiêm trọng): Cành vươn diện rộng (>50% mái nhà), thảm thực vật dày đặc sát cấu trúc nhà
Đối với mỗi mục trên (1-5), hãy viết một câu tóm tắt những gì bạn tìm thấy, với câu trả lời cuối cùng là xếp hạng bằng số.
Prompt chi tiết này hướng dẫn Claude thực hiện phân tích có hệ thống, mang lại kết quả đánh giá chính xác và hữu ích hơn nhiều so với một yêu cầu đơn giản.
Hãy nhớ: các kỹ thuật prompting hiệu quả với văn bản cũng áp dụng được cho hình ảnh. Hãy đầu tư thời gian để soạn thảo các prompt chi tiết, có cấu trúc thay vì dựa vào các câu hỏi đơn giản nếu bạn muốn có kết quả đáng tin cậy.
Tải về
🔁 Bài học liên quan
- Bài tiếp: PDF support
- Bài trước: Extended thinking
- Cùng section: Making a request · Multi-Turn conversations · Chat exercise
- Thuộc lộ trình: Path C
- Docs tham khảo: Glossary · Skills atlas · By use-case
📚 Nguồn & ghi nhận
- Bài học gốc Anthropic Academy: https://anthropic.skilljar.com/claude-with-the-anthropic-api/287778
- © 2025 Anthropic. Chỉ dùng cho mục đích giáo dục, fair-use.
- Crawl: 2026-04-23 · Chuẩn hoá: 2026-05-01