Bỏ qua đến nội dung chính

PDF support

📖 Nội dung bài học

Họ phông chữ Video này đang được xử lý. Vui lòng quay lại sau và tải lại trang.

Tóm tắt

Claude có thể đọc và phân tích các tệp PDF trực tiếp, biến nó thành một công cụ mạnh mẽ để xử lý tài liệu. Khả năng này hoạt động tương tự như xử lý hình ảnh, nhưng có một vài điểm khác biệt chính trong cách bạn cấu trúc mã nguồn.

Thiết lập xử lý PDF

Để xử lý một tệp PDF với Claude, bạn sẽ sử dụng mã nguồn gần như giống hệt với mã bạn dùng cho hình ảnh. Sự khác biệt chính nằm ở đặc tả loại tệp và tên biến để cho rõ ràng.

Dưới đây là cách sửa đổi mã xử lý hình ảnh hiện có của bạn cho PDF:

with open("earth.pdf", "rb") as f:
    file_bytes = base64.standard_b64encode(f.read()).decode("utf-8")

messages = []

add_user_message(
    messages,
    [
        {
            "type": "document",
            "source": {
                "type": "base64",
                "media_type": "application/pdf",
                "data": file_bytes,
            },
        },
        {"type": "text", "text": "Summarize the document in one sentence"},
    ],
)

chat(messages)

Các thay đổi chính so với xử lý hình ảnh

Khi chuyển đổi mã xử lý hình ảnh sang PDF, bạn cần cập nhật một số yếu tố:

  • Thay đổi phần mở rộng tệp từ .png sang .pdf
  • Cập nhật tên biến từ image_bytes thành file_bytes để rõ nghĩa hơn
  • Đặt type thành "document" thay vì "image"
  • Thay đổi media_type thành "application/pdf" thay vì "image/png"

Những gì Claude có thể trích xuất từ PDF

Khả năng xử lý PDF của Claude không chỉ dừng lại ở việc trích xuất văn bản (text extraction) đơn thuần. Nó có thể phân tích và hiểu:

  • Nội dung văn bản trong toàn bộ tài liệu
  • Hình ảnh và biểu đồ được nhúng trong PDF
  • Các bảng và mối quan hệ dữ liệu của chúng
  • Cấu trúc và định dạng tài liệu

Điều này giúp Claude thực sự trở thành một giải pháp toàn diện để trích xuất bất kỳ loại thông tin nào từ tài liệu PDF, cho dù bạn cần tóm tắt, phân tích dữ liệu hay trích xuất nội dung cụ thể.

Ví dụ trên cho thấy Claude xử lý thành công một bài báo Wikipedia về Trái đất được lưu dưới dạng PDF, chứng minh cách nó có thể hiểu và tóm tắt nội dung tài liệu phức tạp chỉ trong một câu duy nhất.

Tải xuống

🔁 Bài học liên quan

📚 Nguồn & ghi nhận

Bài học có hữu ích không?

Góp ý / Báo lỗiPhát hiện sai sót hoặc có ý tưởng cải thiện?