📖 Nội dung bài học
Tóm tắt
Khi xây dựng ứng dụng với Claude, việc hiểu toàn bộ vòng đời yêu cầu giúp bạn kiến trúc hệ thống tốt hơn và gỡ lỗi hiệu quả hơn. Hãy cùng xem điều gì xảy ra khi người dùng gửi một tin nhắn đến ứng dụng trò chuyện có AI của bạn.

Luồng Yêu cầu Hoàn chỉnh
Hành trình từ đầu vào của người dùng đến phản hồi của AI bao gồm năm bước riêng biệt: Yêu cầu đến Máy chủ, Yêu cầu đến Vertex, Xử lý Mô hình, Phản hồi đến Máy chủ và Phản hồi đến Khách hàng. Mỗi bước đóng một vai trò quan trọng trong việc mang lại phản hồi "kỳ diệu" mà người dùng mong đợi.

Tại sao bạn cần Máy chủ
Không bao giờ thực hiện yêu cầu API trực tiếp từ mã phía máy khách. Đây là lý do:
- Yêu cầu API yêu cầu thông tin xác thực bí mật phải được bảo mật.
- Tiết lộ thông tin xác thực trong mã máy khách sẽ khiến chúng hiển thị với bất kỳ ai.
- Máy chủ của bạn hoạt động như một trung gian an toàn giữa ứng dụng của bạn và Vertex.
Luôn định tuyến yêu cầu thông qua máy chủ của riêng bạn mà bạn kiểm soát và bảo mật.
Thực hiện Yêu cầu API
Máy chủ của bạn giao tiếp với Vertex bằng cách sử dụng bộ SDK của Anthropic hoặc bộ SDK Vertex chính thức của Google. Anthropic cung cấp bộ SDK chính thức cho Python, TypeScript, Go và Ruby.

Mỗi yêu cầu phải bao gồm các trường chính sau:
- Khóa API - Xác định yêu cầu của bạn tới Anthropic.
- Mô hình - Tên của mô hình cụ thể sẽ sử dụng.
- Tin nhắn - Danh sách chứa văn bản đầu vào của người dùng.
- Số lượng Token Tối đa - Giới hạn số lượng token mà mô hình có thể tạo ra.
Đầu vào của người dùng được đặt trong một tin nhắn "user", sau đó được đưa vào danh sách các tin nhắn được gửi đến API.
Bên trong Claude: Quy trình tạo văn bản
Sau khi Vertex nhận được yêu cầu của bạn, Claude sẽ xử lý yêu cầu đó qua bốn giai đoạn: Tokenization, Embedding, Contextualization và Generation.

Tokenization
Claude trước tiên chia văn bản đầu vào thành các phần nhỏ hơn gọi là token. Chúng có thể là các từ hoàn chỉnh, một phần của từ, khoảng trắng hoặc ký hiệu. Để đơn giản, hãy coi mỗi từ là một token.
Embedding
Mỗi token được chuyển đổi thành một embedding - một danh sách dài các số đại diện cho tất cả các ý nghĩa có thể có của từ đó. Hãy coi embeddings như các định nghĩa dựa trên số.

Contextualization
Vì các từ có thể có nhiều nghĩa, Claude sử dụng ngữ cảnh để xác định cách diễn giải đúng. Từ "lượng tử" có thể đề cập đến vật lý, máy tính hoặc chỉ đơn giản là "rất nhỏ" - ngữ cảnh từ các từ xung quanh làm rõ ý nghĩa dự định.

Trong quá trình contextualization, mỗi embedding sẽ được điều chỉnh dựa trên các từ lân cận, làm nổi bật ý nghĩa có ý nghĩa nhất dựa trên ngữ cảnh.

Generation
Các embedding đã được contextualize đi qua một lớp đầu ra tạo ra xác suất cho mỗi từ tiếp theo có thể có. Claude không phải lúc nào cũng chọn từ có xác suất cao nhất - nó sử dụng kết hợp giữa xác suất và tính ngẫu nhiên để tạo ra các phản hồi tự nhiên, đa dạng hơn.

Sau khi chọn một từ, Claude sẽ thêm từ đó vào chuỗi và lặp lại toàn bộ quy trình cho từ tiếp theo.
Khi nào quá trình tạo dừng lại
Sau khi tạo mỗi token, Claude kiểm tra một số điều kiện để quyết định có tiếp tục hay không:

- Đã đạt số lượng token tối đa - Đã đạt đến giới hạn bạn đã chỉ định chưa?
- Kết thúc tự nhiên - Nó đã tạo ra một token kết thúc chuỗi chưa?
- Chuỗi dừng - Nó có gặp một cụm từ dừng được xác định trước không?
Token kết thúc chuỗi là một tín hiệu đặc biệt (không phải văn bản hiển thị) mà Claude sử dụng để chỉ ra rằng nó đã đạt đến kết luận tự nhiên.
Phản hồi
Sau khi quá trình tạo hoàn tất, Vertex sẽ gửi phản hồi trở lại máy chủ của bạn chứa:

- Tin nhắn - Văn bản được tạo ra.
- Sử dụng - Số lượng token đầu vào và đầu ra.
- Lý do dừng - Tại sao mô hình ngừng tạo.
Sau đó, máy chủ của bạn sẽ chuyển tiếp văn bản được tạo đến ứng dụng máy khách của bạn, nơi nó xuất hiện trong giao diện trò chuyện.

Toàn cảnh
Toàn bộ quy trình này - từ đầu vào của người dùng qua tokenization, embedding, contextualization, generation và quay trở lại người dùng - diễn ra trong vài giây. Hiểu rõ luồng này giúp bạn xây dựng các ứng dụng mạnh mẽ hơn và khắc phục sự cố khi chúng phát sinh.

Điểm mấu chốt: luôn sử dụng máy chủ làm trung gian, hiểu rằng việc tạo văn bản là một quy trình lặp đi lặp lại và chú ý đến siêu dữ liệu phản hồi để theo dõi việc sử dụng và hiểu hành vi của mô hình.
🔁 Bài học liên quan
- Bài tiếp: Vertex AI Setup
- Bài trước: Overview of Claude models
- Cùng section: Welcome to the course · Overview of Claude models
- Thuộc lộ trình: Path C
- Docs tham khảo: Glossary · Skills atlas · By use-case
📚 Nguồn & ghi nhận
- Bài học gốc Anthropic Academy: https://anthropic.skilljar.com/claude-with-google-vertex/289151
- © 2025 Anthropic. Chỉ dùng cho mục đích giáo dục, fair-use.
- Crawl: — · Chuẩn hoá: 2026-05-01