📖 Nội dung bài học
Họ phông chữ
Tóm tắt
Khả năng thị giác của Claude cho phép bạn đưa hình ảnh vào tin nhắn và yêu cầu Claude phân tích chúng theo những cách tinh vi. Bạn có thể yêu cầu Claude mô tả nội dung hình ảnh, so sánh nhiều hình ảnh, đếm đối tượng hoặc thực hiện các tác vụ phân tích trực quan phức tạp.
Các khái niệm cơ bản về xử lý hình ảnh

Khi làm việc với hình ảnh trong Claude, bạn cần hiểu một số giới hạn chính:
- Tối đa 100 hình ảnh trên tất cả các tin nhắn trong một yêu cầu
- Kích thước tối đa 5MB cho mỗi hình ảnh
- Khi gửi một hình ảnh: chiều cao/chiều rộng tối đa 8000px
- Khi gửi nhiều hình ảnh: chiều cao/chiều rộng tối đa 2000px
- Hình ảnh có thể được bao gồm dưới dạng mã hóa base64 hoặc URL đến hình ảnh
- Mỗi hình ảnh được tính là token dựa trên kích thước:
tokens = (width px × height px) / 750
Để đưa một hình ảnh vào, bạn thêm một khối hình ảnh vào tin nhắn người dùng của bạn cùng với các khối văn bản. Đây là cấu trúc:
with open("image.png", "rb") as f:
image_bytes = base64.standard_b64encode(
f.read()
).decode("utf-8")
add_user_message(messages, [
# Image Block
{
"type": "image",
"source": {
"type": "base64",
"media_type": "image/png",
"data": image_bytes,
}
},
# Text Block
{
"type": "text",
"text": "What do you see in this image?"
}
])
Luồng tin nhắn

Cuộc trò chuyện hoạt động giống như các tương tác chỉ có văn bản. Máy chủ của bạn gửi một tin nhắn người dùng chứa cả khối hình ảnh và văn bản đến Claude và Claude phản hồi bằng một tin nhắn văn bản phân tích hình ảnh.
Kỹ thuật prompting

Điều quan trọng nhất cần hiểu về khả năng thị giác của Claude là các kỹ thuật prompting tốt là cực kỳ quan trọng. Các prompt đơn giản thường tạo ra kết quả kém, ngay cả với hình ảnh rõ ràng.
Ví dụ: việc hỏi "Có bao nhiêu viên bi trong hình ảnh này?" với một hình ảnh chứa 12 viên bi có thể trả về số lượng không chính xác là 13. Bạn có thể cải thiện đáng kể độ chính xác bằng cách áp dụng các kỹ thuật engineering prompting tương tự mà bạn sẽ sử dụng cho văn bản:
- Cung cấp các hướng dẫn và bước phân tích chi tiết
- Sử dụng các ví dụ một lần hoặc nhiều lần
- Chia nhỏ các tác vụ phức tạp thành các bước nhỏ hơn
Phân tích từng bước

Thay vì một câu hỏi đơn giản, hãy cung cấp cho Claude một phương pháp luận:
Phân tích hình ảnh những viên bi này và xác định số lượng chính xác bằng cách sử dụng phương pháp luận này:
1. Bắt đầu bằng cách xác định từng viên bi duy nhất, từng viên một. Gán cho mỗi viên một số khi bạn xác định nó.
2. Xác minh kết quả của bạn bằng cách đếm bằng một phương pháp khác. Bắt đầu từ góc dưới bên trái và làm việc theo hàng, từ trái sang phải.
Số lượng viên bi chính xác, đã được xác minh trong hình ảnh này là bao nhiêu?
Cách tiếp cận có cấu trúc này giúp Claude có được số lượng chính xác là 12 viên bi.
Ví dụ một lần

Bạn cũng có thể sử dụng prompting một lần bằng cách bao gồm nhiều cặp hình ảnh-văn bản trong một tin nhắn duy nhất:
[Hình ảnh 11 viên bi]
Hình ảnh trên có 11 viên bi trong đó.
[Hình ảnh 12 viên bi]
Có bao nhiêu viên bi trong hình ảnh này?
Cung cấp một ví dụ sẽ cải thiện đáng kể độ chính xác của Claude trên hình ảnh mục tiêu.
Ví dụ thực tế: Đánh giá rủi ro hỏa hoạn

Đây là một ứng dụng thực tế: tự động hóa việc đánh giá rủi ro hỏa hoạn cho bảo hiểm nhà. Các công ty bảo hiểm thường yêu cầu chủ nhà cắt tỉa cây cối xung quanh tài sản của họ để giảm nguy cơ cháy rừng. Thay vì gửi thanh tra đến từng tài sản, bạn có thể dùng hình ảnh vệ tinh với Claude.
Hệ thống phân tích hình ảnh vệ tinh để xác định:
- Cây cối rậm rạp, mọc gần nhau gần nơi ở
- Các tuyến đường tiếp cận khó khăn cho các dịch vụ khẩn cấp
- Cành cây nhô ra khỏi nơi ở
Thay vì một prompt đơn giản như "cung cấp điểm rủi ro hỏa hoạn", bạn tạo một khung phân tích chi tiết:
Phân tích hình ảnh vệ tinh đính kèm của một tài sản với các bước cụ thể sau:
1. Nhận dạng nơi ở: Xác định vị trí nơi ở chính trên tài sản bằng cách tìm kiếm:
- Cấu trúc mái lớn nhất
- Các đặc điểm dân cư điển hình (kết nối đường lái xe, hình học thông thường)
- Sự khác biệt với các cấu trúc khác (ga ra, nhà kho, hồ bơi)
2. Phân tích phần nhô ra của cây: Kiểm tra tất cả các cây gần nơi ở chính:
- Xác định bất kỳ cây nào có tán cây mở rộng trực tiếp trên bất kỳ phần nào của mái nhà
- Ước tính tỷ lệ mái nhà được bao phủ bởi các cành cây nhô ra (0-25%, 25-50%, 50-75%, 75%+)
- Lưu ý các khu vực nhô ra đặc biệt dày đặc
3. Đánh giá rủi ro hỏa hoạn: Đối với bất kỳ cây nào nhô ra, hãy đánh giá:
- Khả năng dễ bị cháy rừng (điểm bắt ember, đường dẫn nhiên liệu liên tục đến cấu trúc)
- Gần ống khói, lỗ thông hơi hoặc các lỗ hở khác trên mái nhà nếu có thể nhìn thấy
- Các khu vực mà các cành cây tạo thành một "cầu" giữa thảm thực vật hoang dã và cấu trúc
4. Nhận dạng không gian phòng thủ: Đánh giá cấu trúc thực vật tổng thể của tài sản:
- Xác định xem cây có kết nối để tạo thành một tán cây liên tục trên hoặc gần nhà hay không
- Lưu ý bất kỳ thang nhiên liệu rõ ràng nào (thảm thực vật có thể mang lửa từ mặt đất lên cây lên mái nhà)
5. Xếp hạng rủi ro hỏa hoạn: Dựa trên phân tích của bạn, hãy gán Xếp hạng Rủi ro Hỏa hoạn từ 1-4:
- Xếp hạng 1 (Rủi ro thấp): Không có cành cây nào nhô ra khỏi mái nhà, không gian phòng thủ tốt xung quanh
- Xếp hạng 2 (Rủi ro vừa phải): Phần nhô ra tối thiểu (<25% mái nhà), một số phân tách giữa tán cây
- Xếp hạng 3 (Rủi ro cao): Phần nhô ra đáng kể (25-50% mái nhà), tán cây kết nối, nhiều điểm dễ bị tổn thương
- Xếp hạng 4 (Rủi ro nghiêm trọng): Phần nhô ra rộng (hơn 50% mái nhà), thảm thực vật dày đặc chống lại cấu trúc
Đối với mỗi mục ở trên (1-5), hãy viết một câu tóm tắt những phát hiện của bạn, với phản hồi cuối cùng của bạn là xếp hạng bằng số.
Prompt toàn diện này hướng dẫn Claude thông qua một phân tích có hệ thống, dẫn đến các đánh giá rủi ro hỏa hoạn chính xác và khả thi. Khi được thử nghiệm với một tài sản có nhiều cây cối, Claude đã xác định chính xác nó là "3 (Rủi ro cao)" do phần nhô ra của cây đáng kể và tán cây kết nối xung quanh cấu trúc.
Điểm mấu chốt là khả năng thị giác của Claude rất mạnh mẽ, nhưng chúng đòi hỏi cùng một kỹ thuật prompt engineering cẩn thận mà bạn sẽ sử dụng cho bất kỳ tác vụ phức tạp nào. Hãy đầu tư thời gian vào việc tạo các prompt chi tiết, có cấu trúc thay vì dựa vào các câu hỏi đơn giản.
Tải xuống
🔁 Bài học liên quan
- Bài tiếp: PDF support
- Bài trước: Extended thinking
- Cùng section: Making a request · Multi-turn conversations · Chat exercise
- Thuộc lộ trình: Path C
- Docs tham khảo: Glossary · Skills atlas · By use-case
📚 Nguồn & ghi nhận
- Bài học gốc Anthropic Academy: https://anthropic.skilljar.com/claude-with-google-vertex/289203
- © 2025 Anthropic. Chỉ dùng cho mục đích giáo dục, fair-use.
- Crawl: — · Chuẩn hoá: 2026-05-01