Bỏ qua đến nội dung chính

Lesson 3A: What is generative AI? (Deep Dive) | AI Fluency: Framework & Foundations Course

TL;DR

  • AI tạo sinh có khả năng tạo ra nội dung mới độc đáo, thay vì chỉ phân tích dữ liệu có sẵn, đánh dấu một bước tiến cơ bản trong năng lực của AI.
  • Sự phát triển của AI tạo sinh hiện đại được thúc đẩy bởi ba yếu tố chính: kiến trúc transformer tiên tiến, nguồn dữ liệu số khổng lồ, và sức mạnh tính toán vượt trội.
  • Các mô hình AI này học thông qua huấn luyện trước trên lượng lớn dữ liệu để nhận diện mẫu ngôn ngữ, sau đó được tinh chỉnh bằng phản hồi của con người để đưa ra các phản hồi hữu ích, trung thực và an toàn.

Điểm chính

  • Định nghĩa: AI tạo sinh tạo ra nội dung mới (ví dụ: viết email), khác với AI truyền thống chỉ phân loại hoặc phân tích dữ liệu hiện có (ví dụ: phân loại thư rác).
  • Mô hình cốt lõi: Các Mô hình ngôn ngữ lớn (LLM) như Claude là một loại AI tạo sinh, được huấn luyện để dự đoán và tạo ra ngôn ngữ con người với hàng tỷ tham số.
  • Ba đột phá công nghệ chính:
    • Kiến trúc Transformer (2017): Thay đổi cách hệ thống AI học, đặc biệt hiệu quả trong việc xử lý chuỗi văn bản dài và duy trì ngữ cảnh.
    • Dữ liệu số phong phú: Cung cấp nguồn nguyên liệu khổng lồ từ web, kho lưu trữ mã để huấn luyện mô hình với hiểu biết sâu rộng về ngôn ngữ.
    • Sức mạnh tính toán tăng cường: Sử dụng GPU, TPU và clusters giúp huấn luyện các mô hình phức tạp mà trước đây không thể.
  • Quy luật mở rộng và khả năng đột phá: Khi các mô hình AI lớn hơn, được huấn luyện với nhiều dữ liệu và sức mạnh tính toán hơn, hiệu suất của chúng cải thiện một cách có thể dự đoán và những khả năng mới, không được lập trình rõ ràng (ví dụ: suy luận, thích nghi tác vụ), sẽ xuất hiện.
  • Quá trình huấn luyện hai giai đoạn:
    • Huấn luyện trước (Pre-training): Mô hình phân tích hàng tỷ ví dụ văn bản để xây dựng bản đồ phức tạp về ngôn ngữ và kiến thức, học cách dự đoán từ tiếp theo.
    • Tinh chỉnh (Fine-tuning): Mô hình học cách làm theo hướng dẫn, đưa ra phản hồi hữu ích và tránh nội dung có hại, thường thông qua phản hồi của con người và học tăng cường.
  • Tương tác qua câu lệnh và cửa sổ ngữ cảnh: Người dùng cung cấp một câu lệnh (prompt), và mô hình tạo ra văn bản mới dựa trên các mẫu đã học. Cửa sổ ngữ cảnh là giới hạn thực tế về lượng thông tin mà mô hình có thể xem xét cùng lúc (bao gồm câu lệnh và phản hồi).
  • Ba đặc điểm sức mạnh: Xử lý lượng thông tin khổng lồ trong huấn luyện, khả năng học theo ngữ cảnh (thích nghi tác vụ mới qua hướng dẫn trong câu lệnh), và các khả năng đột phá xuất hiện từ quy mô.

Từ vựng

  • AI tạo sinh — Generative AI
  • Mô hình ngôn ngữ lớn (LLM) — Large Language Model (LLM)
  • Kiến trúc transformer — Transformer architecture
  • Tham số — Parameter
  • Sức mạnh tính toán — Computational power
  • Quy luật mở rộng — Scaling laws
  • Huấn luyện trước — Pre-training
  • Tinh chỉnh — Fine-tuning
  • Học tăng cường — Reinforcement learning
  • Câu lệnh — Prompt
  • Cửa sổ ngữ cảnh — Context window
  • Học theo ngữ cảnh — In-context learning

Nội dung chi tiết

Giới thiệu về AI tạo sinh

Chào các bạn, tôi là Drew Bent, một giáo viên, lập trình viên và là thành viên của đội ngũ kỹ thuật tại Anthropic. Chào mừng các bạn đến với phần tìm hiểu về AI tạo sinh (Generative AI) của chúng tôi. Trong video này, chúng ta sẽ đi sâu vào AI tạo sinh thực sự là gì, cách nó hoạt động ngầm bên trong, và những đột phá công nghệ đã giúp các hệ thống AI này trở thành hiện thực. Bạn có thể tương tác với AI tạo sinh hằng ngày mà không hiểu rõ những gì đang diễn ra phía sau. Chúng ta hãy cùng thay đổi điều đó.

Định nghĩa AI tạo sinh

AI tạo sinh đề cập đến các hệ thống AI có khả năng tạo ra nội dung mới thay vì chỉ phân tích dữ liệu hiện có. Ví dụ, trong khi AI truyền thống có thể phân loại email là thư rác hay không dựa trên các mẫu có sẵn, AI tạo sinh có thể viết một email hoàn toàn mới cho bạn. Cách tiếp cận đầu tiên là phân tích và phân loại; cách thứ hai là tạo ra thứ gì đó mới chưa từng tồn tại trước đây. Điều này đại diện cho một sự thay đổi cơ bản trong khả năng của AI.

Mô hình ngôn ngữ lớn (LLM) và cấu trúc

Mô hình ngôn ngữ lớn (LLM), như các mô hình AI Claude của Anthropic, là một loại AI tạo sinh nổi bật. Chúng được gọi là mô hình ngôn ngữ vì chúng được huấn luyện để dự đoán và tạo ra ngôn ngữ của con người, và lớn vì chúng chứa hàng tỷ tham số – các giá trị toán học quyết định cách mô hình AI xử lý thông tin, phần nào giống như các kết nối khớp thần kinh trong bộ não của bạn. Con đường dẫn đến AI tạo sinh ngày nay không phải là bất ngờ.

Các bước đột phá công nghệ chính

Nó liên quan đến ba phát triển quan trọng kết hợp lại đúng thời điểm. Đầu tiên, có những đột phá về thuật toán và kiến trúc đã thay đổi cơ bản cách hệ thống AI học. Trong khi mạng nơ-ron đã tồn tại về mặt lý thuyết hàng thập kỷ, sự phát triển của kiến trúc transformer vào năm 2017 là một bước ngoặt lớn. Kiến trúc này xuất sắc trong việc xử lý các chuỗi văn bản trong khi vẫn duy trì mối quan hệ giữa các từ trong những đoạn văn dài, điều này rất quan trọng để hiểu ngôn ngữ trong ngữ cảnh.

Thứ hai, sự bùng nổ của dữ liệu số đã cung cấp nguyên liệu thô cần thiết cho quá trình huấn luyện. Các Mô hình ngôn ngữ lớn hiện đại, như Claude, học từ nhiều nguồn đa dạng, chẳng hạn như các trang web, kho lưu trữ mã, và các văn bản khác đại diện cho tri thức và giao tiếp của con người. Kho thông tin rộng lớn này giúp các mô hình AI phát triển sự hiểu biết rộng và tinh tế về cả ngôn ngữ và các khái niệm.

Và thứ ba, sự gia tăng lớn về sức mạnh tính toán đã giúp có thể huấn luyện các mô hình AI phức tạp này trên tất cả dữ liệu đó. Các phần cứng chuyên dụng như GPU (bộ xử lý đồ họa) và TPU (bộ xử lý tensor), cùng với các mạng máy tính phân tán thường được gọi là clusters, cho phép xử lý những tác vụ mà chỉ vài năm trước đây là không thể.

Quy luật mở rộng và Khả năng đột phá

Sự kết hợp của ba yếu tố này đã dẫn đến một khám phá quan trọng được gọi là quy luật mở rộng (scaling laws). Những phát hiện thực nghiệm này cho thấy rằng khi các mô hình AI trở nên lớn hơn và được huấn luyện trên nhiều dữ liệu hơn với sức mạnh tính toán lớn hơn, hiệu suất của chúng cải thiện theo những cách có thể dự đoán được. Đáng ngạc nhiên hơn, các nhà nghiên cứu phát hiện ra rằng những khả năng hoàn toàn mới bắt đầu xuất hiện khi các mô hình AI này lớn hơn. Những khả năng mà không ai lập trình một cách rõ ràng, như suy luận từng bước qua các vấn đề, hoặc thích nghi với các tác vụ mới chỉ với một lượng hướng dẫn tối thiểu.

Cách thức hoạt động: Huấn luyện trước

Hãy cùng tìm hiểu sâu hơn về cách các hệ thống AI này thực sự hoạt động. Trong quá trình huấn luyện ban đầu, còn được gọi là huấn luyện trước (pre-training), các Mô hình ngôn ngữ lớn như Claude, phân tích các mẫu trên hàng tỷ ví dụ văn bản. Hãy tưởng tượng bạn đọc mọi trang web và đoạn văn bản mà bạn có thể tìm thấy, không chỉ để tiếp thu thông tin, mà để hiểu các mối quan hệ thống kê giữa các từ, cụm từ và khái niệm. Ở giai đoạn này, mô hình AI về cơ bản xây dựng một cái gì đó giống như một bản đồ phức tạp về ngôn ngữ và kiến thức. Quá trình huấn luyện trước này bao gồm việc cho mô hình AI xem văn bản và yêu cầu nó dự đoán điều gì sẽ xảy ra tiếp theo. Qua nhiều lần lặp lại, mô hình AI dần tinh chỉnh các dự đoán của mình, học các mẫu tạo nên ngôn ngữ mạch lạc và có ý nghĩa.

Cách thức hoạt động: Tinh chỉnh

Sau huấn luyện trước, các mô hình AI trải qua quá trình huấn luyện bổ sung được gọi là tinh chỉnh (fine-tuning), nơi chúng học cách làm theo hướng dẫn, cung cấp các phản hồi hữu ích, và quan trọng là, tránh tạo ra nội dung có hại. Điều này thường liên quan đến phản hồi của con người để cải thiện hiệu suất của mô hình AI, cũng như học tăng cường (reinforcement learning), sử dụng các phần thưởng và hình phạt để định hình hành vi của mô hình AI theo hướng hữu ích hơn, trung thực hơn và không gây hại, trong trường hợp các mô hình AI của Anthropic.

Tương tác và Cửa sổ ngữ cảnh

Khi các mô hình AI đã được huấn luyện, chúng sẽ được triển khai để bạn tương tác. Khi bạn tương tác với Claude hoặc một Mô hình ngôn ngữ lớn khác, bạn đang cung cấp một câu lệnh (prompt), là văn bản mà mô hình AI đọc và sau đó tiếp tục từ đó, dựa trên các mẫu mà nó đã học được trong quá trình huấn luyện. Mô hình AI không phải đang truy xuất các câu trả lời được viết sẵn từ một cơ sở dữ liệu. Thay vào đó, nó đang tạo ra văn bản mới mà về mặt thống kê tiếp nối những gì bạn đã viết.

Ngoài ra còn có một giới hạn thực tế về lượng thông tin mà một Mô hình ngôn ngữ lớn có thể xem xét cùng một lúc, được gọi là cửa sổ ngữ cảnh (context window). Hãy nghĩ đây là bộ nhớ làm việc của AI. Cửa sổ ngữ cảnh bao gồm câu lệnh của bạn, phản hồi của AI và bất kỳ thông tin nào khác bạn đã chia sẻ trong cuộc trò chuyện của mình. Mặc dù các công ty AI tiếp tục mở rộng cửa sổ ngữ cảnh để cho phép các tài liệu và cuộc trò chuyện dài hơn, những giới hạn này nhắc nhở chúng ta rằng các hệ thống AI này không có quyền truy cập thông tin không giới hạn và không thể sử dụng nội dung ngoài cửa sổ ngữ cảnh hiện tại của chúng nếu không có các công cụ chuyên biệt như tìm kiếm web.

Ba đặc điểm làm nên sức mạnh của AI tạo sinh

Tổng hợp lại, ba đặc điểm làm cho AI tạo sinh hiện đại trở nên mạnh mẽ bao gồm: Đầu tiên, khả năng xử lý lượng thông tin khổng lồ trong quá trình huấn luyện, cho phép nó học các mẫu phức tạp và tinh tế trong ngôn ngữ và kiến thức. Thứ hai, khả năng học theo ngữ cảnh (in-context learning). Các Mô hình ngôn ngữ lớn có thể thích ứng với các tác vụ mới dựa trên hướng dẫn hoặc ví dụ trong câu lệnh của bạn mà không cần huấn luyện bổ sung. Và thứ ba, các khả năng đột phá xuất hiện từ quy mô. Khi các mô hình AI này lớn hơn, chúng phát triển những khả năng không được thiết kế rõ ràng vào chúng, đôi khi gây ngạc nhiên ngay cả với những người tạo ra chúng.

Trong video tiếp theo, chúng ta sẽ khám phá những gì các hệ thống AI này có thể và không thể làm tốt, cùng với các ứng dụng phổ biến hoặc có giá trị nhất của chúng.

Góp ý / Báo lỗiPhát hiện sai sót hoặc có ý tưởng cải thiện?