Accessing the API

📖 Nội dung bài học

Tóm tắt

Khi xây dựng ứng dụng với Claude, việc hiểu toàn bộ vòng đời yêu cầu giúp bạn kiến trúc hệ thống tốt hơn và gỡ lỗi hiệu quả hơn. Hãy cùng xem điều gì xảy ra khi người dùng gửi một tin nhắn đến ứng dụng trò chuyện có AI của bạn.

Luồng Yêu cầu Hoàn chỉnh

Hành trình từ đầu vào của người dùng đến phản hồi của AI bao gồm năm bước riêng biệt: Yêu cầu đến Máy chủ, Yêu cầu đến Vertex, Xử lý Mô hình, Phản hồi đến Máy chủ và Phản hồi đến Khách hàng. Mỗi bước đóng một vai trò quan trọng trong việc mang lại phản hồi "kỳ diệu" mà người dùng mong đợi.

Tại sao bạn cần Máy chủ

Không bao giờ thực hiện yêu cầu API trực tiếp từ mã phía máy khách. Đây là lý do:

Yêu cầu API yêu cầu thông tin xác thực bí mật phải được bảo mật.
Tiết lộ thông tin xác thực trong mã máy khách sẽ khiến chúng hiển thị với bất kỳ ai.
Máy chủ của bạn hoạt động như một trung gian an toàn giữa ứng dụng của bạn và Vertex.

Luôn định tuyến yêu cầu thông qua máy chủ của riêng bạn mà bạn kiểm soát và bảo mật.

Thực hiện Yêu cầu API

Máy chủ của bạn giao tiếp với Vertex bằng cách sử dụng bộ SDK của Anthropic hoặc bộ SDK Vertex chính thức của Google. Anthropic cung cấp bộ SDK chính thức cho Python, TypeScript, Go và Ruby.

Mỗi yêu cầu phải bao gồm các trường chính sau:

Khóa API - Xác định yêu cầu của bạn tới Anthropic.
Mô hình - Tên của mô hình cụ thể sẽ sử dụng.
Tin nhắn - Danh sách chứa văn bản đầu vào của người dùng.
Số lượng Token Tối đa - Giới hạn số lượng token mà mô hình có thể tạo ra.

Đầu vào của người dùng được đặt trong một tin nhắn "user", sau đó được đưa vào danh sách các tin nhắn được gửi đến API.

Bên trong Claude: Quy trình tạo văn bản

Sau khi Vertex nhận được yêu cầu của bạn, Claude sẽ xử lý yêu cầu đó qua bốn giai đoạn: Tokenization, Embedding, Contextualization và Generation.

Tokenization

Claude trước tiên chia văn bản đầu vào thành các phần nhỏ hơn gọi là token. Chúng có thể là các từ hoàn chỉnh, một phần của từ, khoảng trắng hoặc ký hiệu. Để đơn giản, hãy coi mỗi từ là một token.

Embedding

Mỗi token được chuyển đổi thành một embedding - một danh sách dài các số đại diện cho tất cả các ý nghĩa có thể có của từ đó. Hãy coi embeddings như các định nghĩa dựa trên số.

Contextualization

Vì các từ có thể có nhiều nghĩa, Claude sử dụng ngữ cảnh để xác định cách diễn giải đúng. Từ "lượng tử" có thể đề cập đến vật lý, máy tính hoặc chỉ đơn giản là "rất nhỏ" - ngữ cảnh từ các từ xung quanh làm rõ ý nghĩa dự định.

Trong quá trình contextualization, mỗi embedding sẽ được điều chỉnh dựa trên các từ lân cận, làm nổi bật ý nghĩa có ý nghĩa nhất dựa trên ngữ cảnh.

Generation

Các embedding đã được contextualize đi qua một lớp đầu ra tạo ra xác suất cho mỗi từ tiếp theo có thể có. Claude không phải lúc nào cũng chọn từ có xác suất cao nhất - nó sử dụng kết hợp giữa xác suất và tính ngẫu nhiên để tạo ra các phản hồi tự nhiên, đa dạng hơn.

Sau khi chọn một từ, Claude sẽ thêm từ đó vào chuỗi và lặp lại toàn bộ quy trình cho từ tiếp theo.

Khi nào quá trình tạo dừng lại

Sau khi tạo mỗi token, Claude kiểm tra một số điều kiện để quyết định có tiếp tục hay không:

Đã đạt số lượng token tối đa - Đã đạt đến giới hạn bạn đã chỉ định chưa?
Kết thúc tự nhiên - Nó đã tạo ra một token kết thúc chuỗi chưa?
Chuỗi dừng - Nó có gặp một cụm từ dừng được xác định trước không?

Token kết thúc chuỗi là một tín hiệu đặc biệt (không phải văn bản hiển thị) mà Claude sử dụng để chỉ ra rằng nó đã đạt đến kết luận tự nhiên.

Phản hồi

Sau khi quá trình tạo hoàn tất, Vertex sẽ gửi phản hồi trở lại máy chủ của bạn chứa:

Tin nhắn - Văn bản được tạo ra.
Sử dụng - Số lượng token đầu vào và đầu ra.
Lý do dừng - Tại sao mô hình ngừng tạo.

Sau đó, máy chủ của bạn sẽ chuyển tiếp văn bản được tạo đến ứng dụng máy khách của bạn, nơi nó xuất hiện trong giao diện trò chuyện.

Toàn cảnh

Toàn bộ quy trình này - từ đầu vào của người dùng qua tokenization, embedding, contextualization, generation và quay trở lại người dùng - diễn ra trong vài giây. Hiểu rõ luồng này giúp bạn xây dựng các ứng dụng mạnh mẽ hơn và khắc phục sự cố khi chúng phát sinh.

Điểm mấu chốt: luôn sử dụng máy chủ làm trung gian, hiểu rằng việc tạo văn bản là một quy trình lặp đi lặp lại và chú ý đến siêu dữ liệu phản hồi để theo dõi việc sử dụng và hiểu hành vi của mô hình.

🔁 Bài học liên quan

Bài tiếp: Vertex AI Setup
Bài trước: Overview of Claude models
Cùng section: Welcome to the course · Overview of Claude models
Thuộc lộ trình: Path C
Docs tham khảo: Glossary · Skills atlas · By use-case

📚 Nguồn & ghi nhận

Bài học gốc Anthropic Academy: https://anthropic.skilljar.com/claude-with-google-vertex/289151
Crawl: — · Chuẩn hoá: 2026-05-01