Bỏ qua đến nội dung chính

Claude 3 Opus as an economic analyst

TL;DR

  • Claude 3 Opus thể hiện khả năng phân tích kinh tế thế giới phức tạp chỉ trong vài phút bằng cách sử dụng nhiều công cụ tích hợp và mô hình đa phương thức.
  • Nó có thể truy cập dữ liệu web, trực quan hóa xu hướng GDP, thực hiện phân tích thống kê, dự báo tương lai và chạy mô phỏng với độ chính xác cao.
  • Để giải quyết các vấn đề phức tạp hơn, Claude có thể tạo và điều phối các "tác nhân phụ" (subagents) làm việc song song, cho phép phân tích nhiều nền kinh tế cùng lúc.

Điểm chính

  • Claude 3 Opus sử dụng WebView tool để truy cập và diễn giải nội dung trang web, bao gồm việc ước tính dữ liệu từ các đường trendline trên biểu đồ.
  • Mô hình này tích hợp Python interpreter để viết (code), tạo biểu đồ dữ liệu, thực hiện statistical analysis và chạy Monte Carlo simulations cho dự báo.
  • Claude có khả năng transcription dữ liệu trực quan từ biểu đồ với độ chính xác cao, trung bình trong khoảng 5-11%.
  • Dispatch Subagents là một công cụ cho phép mô hình chia một vấn đề lớn thành nhiều subproblems và giao cho các phiên bản khác của chính nó (tác nhân phụ) giải quyết.
  • Các tác nhân phụ nhận câu lệnh (prompts) chính xác với hướng dẫn chi tiết và định dạng dữ liệu mong muốn, sau đó thực hiện tác vụ một cách song song.
  • Hệ thống này cho phép thực hiện các phân tích multi-step, multi-modal phức tạp, tổng hợp kết quả từ nhiều nguồn và tác vụ để đưa ra dự đoán kinh tế toàn diện.

Từ vựng

  • mô hình — model
  • tool use — tool use
  • WebView tool — WebView tool
  • multi-modal — multi-modal
  • Python interpreter — Python interpreter
  • statistical analysis — statistical analysis
  • Monte Carlo simulations — Monte Carlo simulations
  • Dispatch Subagents — Dispatch Subagents
  • tác vụ — task
  • song song — in parallel

Nội dung chi tiết

Phân tích Kinh tế Thế giới với Claude

Trong video này, chúng ta sẽ xem liệu Claude và một vài "người bạn" có thể giúp chúng ta phân tích kinh tế thế giới chỉ trong vài phút hay không.

Claude 3 Opus và Phân tích Xu hướng GDP Mỹ

Tôi đã yêu cầu Claude 3 Opus, mô hình lớn nhất trong dòng Claude 3 mới của Anthropic, xem xét các xu hướng GDP của Hoa Kỳ và ghi lại những gì nó thấy vào một bảng markdown. Chúng tôi đã đào tạo Opus và tất cả các mô hình khác trong dòng Claude 3 về tool use một cách chuyên sâu, và một trong những công cụ chính mà nó đang sử dụng là WebView tool. Công cụ này truy cập một URL, xem xét nội dung trên trang và vì mô hình này là multi-modal, nó có thể sử dụng thông tin trên trang đó để giải quyết các vấn đề phức tạp.

Đây là bảng markdownClaude đã tạo. Điều quan trọng cần lưu ý là Claude không có quyền truy cập trực tiếp vào các con số này. Nó thực sự đang xem cùng một trình duyệt mà bạn và tôi đang thấy, nhìn vào đường trendline và cố gắng ước tính các con số chính xác. Hãy cùng xem độ chính xác của nó như thế nào.

Trực quan hóa Dữ liệu và Độ chính xác

Chúng tôi đã yêu cầu mô hình tạo biểu đồ dữ liệu, và nó đã sử dụng công cụ thứ hai – Python interpreter – để viết và sau đó hiển thị hình ảnh để chúng ta kiểm tra. Và đây là hình ảnh. Bạn có thể thấy, nó đã thêm các tooltip animations hữu ích để giải thích một số đỉnh và đáy chính trong một hoặc hai thập kỷ gần đây của nền kinh tế Hoa Kỳ.

Chúng ta có thể so sánh biểu đồ đó với dữ liệu thực tế, và hóa ra nó khá gần, thực tế là trong phạm vi chính xác 5%. Nhân tiện, khả năng transcription của Claude ở đây không chỉ đến từ kiến thức có sẵn về GDP của Hoa Kỳ. Chúng tôi đã thử nghiệm nó với một mẫu lớn các biểu đồ GDP tự tạo, và độ chính xác transcription của nó trung bình là trong vòng 11%.

Phân tích Thống kê và Mô phỏng Monte Carlo

Tiếp theo, chúng tôi yêu cầu mô hình thực hiện một số statistical analysis, dự báo tương lai, thực hiện các simulations để xem GDP của Hoa Kỳ có thể đi về đâu. Và chúng ta có thể thấy rằng nó đã chạy phân tích này bằng Python, và nó có thể thực hiện các Monte Carlo simulations để xem phạm vi các khả năng GDP có thể trông như thế nào trong thập kỷ tới hoặc lâu hơn.

Phân tích Nhiều Nền kinh tế với Tác nhân phụ

Tuy nhiên, tôi tự hỏi liệu chúng ta có thể đi xa hơn nữa không. Chúng ta sẽ yêu cầu mô hình phân tích một câu hỏi phức tạp hơn, đó là GDP có thể thay đổi như thế nào trên tất cả các nền kinh tế lớn nhất thế giới. Để giúp nó làm điều đó, chúng ta sẽ cung cấp cho nó một công cụ nữa có tên là Dispatch Subagents. Công cụ này về cơ bản cho phép mô hình chia vấn đề thành nhiều subproblems, và sau đó viết câu lệnh cho các phiên bản khác của chính nó để giúp giải quyết công việc. Các mô hình sau đó có thể hoàn thành một tác vụ phức tạp hơn bằng cách tất cả cùng làm việc.

Tại đây, bạn có thể thấy nó đã viết câu lệnh này và đưa ra các hướng dẫn rất chính xác mà nó muốn các mô hình khác tuân theo, bao gồm định dạng dữ liệu mà nó hy vọng sẽ nhận được. Nó đã gửi một phiên bản của câu lệnh này đến một mô hình sẽ xem xét Hoa Kỳ, một mô hình cho Trung Quốc, một cho Đức, Nhật Bản, v.v. Tôi có thể thấy trong các thanh progress bars này rằng các Tác nhân phụ hiện đang hoàn thành tác vụ đã đặt ra cho từng nền kinh tế riêng lẻ. Chúng đang truy cập các trang web liên quan, lấy thông tin, chạy để phân tích nó, giống như chúng ta đã thấy trong ví dụ về Hoa Kỳ trước đó, nhưng tất cả song song.

Kết quả Phân tích và Dự đoán Kinh tế Thế giới

Hãy cùng bỏ qua để xem mô hình đã tạo ra những gì. Bạn có thể thấy nó đã chạy phân tích, nó đã tạo ra một biểu đồ hình tròn trước và sau về cách nó dự kiến nền kinh tế thế giới sẽ trông như thế nào vào năm 2030 so với năm 2020. Nó cũng cung cấp cho chúng ta một phân tích bằng văn bản, trong đó nó đưa ra các variable predictions liên quan đến statistical analysis mà nó đã chạy. Nó cho chúng ta biết rằng nó nghĩ tỷ trọng GDP của các nền kinh tế cụ thể sẽ thay đổi và những nền kinh tế nào sẽ lớn hơn hoặc nhỏ hơn vào năm 2030.

Kết luận và Tiềm năng của Claude 3

Vậy là chúng ta đã thấy, một phân tích phức tạp, multi-step, multi-modal analysis được thực hiện bởi một mô hình có thể tạo ra các Tác nhân phụ để thực hiện nhiều tác vụ hơn nữa một cách song song. Chúng tôi rất hào hứng muốn xem bạn hoặc khách hàng có thể làm gì với các khả năng Claude 3 tiên tiến này.

Góp ý / Báo lỗiPhát hiện sai sót hoặc có ý tưởng cải thiện?