Contact Center Voice AI: Low-Latency Intelligence Extraction from Messy Audio Streams — Dippu Singh

Trung tâm liên lạc hiện đại đối mặt với thách thức lớn về năng suất và giữ chân nhân viên do quy trình làm việc sau cuộc gọi (ACW) thủ công, mất nhiều thời gian và không nhất quán.
Giải pháp WiseOps sử dụng một kiến trúc đường ống bốn giai đoạn, độ trễ thấp với AI tạo sinh để chuyển đổi âm thanh hội thoại hỗn tạp thành thông tin nghiệp vụ có cấu trúc, tự động hóa và cải thiện chất lượng dữ liệu.
Việc triển khai này giúp giảm gần 50% thời gian xử lý ACW, cải thiện đáng kể chất lượng dữ liệu và giảm tải nhận thức cho tổng đài viên, mang lại lợi tức đầu tư (ROI) và tác động vận hành cao.

Xử lý âm thanh chất lượng cao là nền tảng: Đảm bảo thu nhận giọng nói thời gian thực, áp dụng bộ lọc tiếng ồn, chuẩn hóa mức âm thanh và đặc biệt là ánh xạ kênh (channel mapping) để tách riêng âm thanh của tổng đài viên và khách hàng là rất quan trọng để tránh "rác vào, rác ra".
Bảo mật PII từ sớm: Sử dụng quản lý bộ đệm và kỹ thuật che dấu thông tin nhận dạng cá nhân (PII) ngay từ giai đoạn thu nhận giọng nói để ngăn dữ liệu nhạy cảm đi vào bộ nhớ mô hình ngôn ngữ lớn (LLM).
Độ chính xác STT cao là bắt buộc: Công cụ chuyển giọng nói thành văn bản (STT) phải đạt độ chính xác trên 90%, sử dụng mô hình hóa âm thanh nâng cao và từ điển chuyên biệt theo từng lĩnh vực để xử lý phương ngữ và thuật ngữ ngành.
Sử dụng orchestration cho Generative AI: Thay vì đưa bản ghi thô vào LLM, hãy sử dụng các prompt templates được điều phối cao và thư viện few-shot để hướng dẫn LLM xuất ra thông tin có cấu trúc (ví dụ: gạch đầu dòng riêng biệt cho yêu cầu khách hàng và hành động của tổng đài viên).
Tập trung vào nhận dạng ý định và giảm thiểu ảo giác: Phát triển lớp suy luận (reasoning layer) để trích xuất ý định và phân loại cuộc gọi dựa trên các lý do được xác định trước, đồng thời áp dụng lớp tin cậy (trust layer) với token optimization và kiểm tra "ảo giác" tự động.
Tích hợp dữ liệu có cấu trúc với CRM/API: Sử dụng API gateway làm schema mapper để chuyển đổi đầu ra JSON của LLM thành các cuộc gọi API cập nhật dữ liệu khách hàng hoặc CRM một cách tự động, kết hợp với bước xác minh của con người.
Xây dựng lộ trình phát triển với các tính năng nâng cao: Kế hoạch mở rộng bao gồm AI có khả năng giải thích (Explainable AI) để đào tạo tổng đài viên, dự báo nhân sự (Predictive Staffing) dựa trên dữ liệu ý định, và phát hiện/phòng chống quấy rối khách hàng (Customer Harassment Prevention).

Generative AI — AI tạo sinh
After-call workflow (ACW) — quy trình làm việc sau cuộc gọi
Return on Investment (ROI) — Lợi tức đầu tư
Speech to Text (STT) — Chuyển giọng nói thành văn bản
Pipeline — đường ống (trong kỹ thuật dữ liệu)
Channel mapping — ánh xạ kênh
Personally Identifiable Information (PII) — thông tin nhận dạng cá nhân
Large Language Model (LLM) — Mô hình ngôn ngữ lớn
Hallucinate — tạo ra "ảo giác" (thuật ngữ AI)
Prompt templates — mẫu lời nhắc
Orchestration — điều phối
Intent recognition — nhận dạng ý định
Sentiment analysis — phân tích cảm xúc
Explainable AI — AI có khả năng giải thích
Predictive Staffing — dự báo nhân sự

Chào mừng tất cả mọi người đến với AI Engineer 2026 online track. Chúc buổi sáng, buổi chiều, buổi tối tốt lành, tùy thuộc vào múi giờ của quý vị. Tôi là Deepu Singh, và tôi lãnh đạo các sáng kiến về công nghệ dữ liệu mới nổi và kiến trúc AI tại Fujitsu Bắc Mỹ. Hôm nay, tôi sẽ cung cấp cho quý vị một cái nhìn sâu sắc về một thách thức kỹ thuật rất cụ thể nhưng có tác động lớn mà chúng tôi đã gặp phải trong trung tâm liên lạc của mình. Với điều đó, tôi xin nhanh chóng chia sẻ màn hình của mình để bắt đầu.

Giới Thiệu WiseOps: Trích xuất Thông tin từ Luồng Âm thanh Rối loạn

Đây là chủ đề của buổi thảo luận: WiseOps, một giải pháp tinh tế, có độ trễ thấp để trích xuất thông tin tình báo từ các luồng âm thanh hỗn tạp. Khi chúng ta nói về AI tạo sinh (generative AI), chúng ta thường tập trung vào các đầu vào văn bản sạch. Tuy nhiên, nếu bạn đi vào thế giới thực, đặc biệt là trong dịch vụ khách hàng hoặc các trung tâm liên lạc, dữ liệu không bắt đầu dưới dạng văn bản sạch. Nó bắt đầu dưới dạng lộn xộn, thường bị chồng chéo, đôi khi chứa đầy cảm xúc và có thể có nhiều kênh âm thanh khác nhau. Hôm nay, chúng ta sẽ khám phá kiến trúc kỹ thuật cần thiết để thu thập âm thanh đó, xử lý nó với độ trễ cực thấp và sử dụng AI tạo sinh để trích xuất thông tin tình báo nghiệp vụ có cấu trúc, có thể hành động được từ đó.

Lộ Trình Thảo Luận

Đây là lộ trình của chúng ta trong 25 phút tới.

Thách thức hiện tại: Đầu tiên, chúng ta sẽ xem xét các thách thức hiện tại. Chúng ta phải hiểu thực tế vận hành và những nút thắt cổ chai nghiêm trọng do con người gây ra trong các trung tâm liên lạc hiện đại để hiểu tại sao kỹ thuật này lại quan trọng.
Giải pháp được cung cấp: Thứ hai, chúng ta sẽ đi sâu vào giải pháp được cung cấp. Tôi sẽ chia kiến trúc cấp cao của chúng tôi thành bốn thành phần chính, trình bày chi tiết cách chúng ta chuyển từ âm thanh thô sang định dạng JSON có cấu trúc bằng cách sử dụng các quy trình làm việc tóm tắt nâng cao.
Kết quả chính: Thứ ba, chúng ta sẽ xem xét các kết quả chính, đặc biệt là cách các triển khai kỹ thuật này chuyển thành ROI (Lợi tức đầu tư) cụ thể và tác động vận hành.
Lộ trình phía trước: Cuối cùng, chúng ta sẽ thảo luận về lộ trình phía trước và minh bạch về những ràng buộc kỹ thuật hiện tại mà chúng ta đang đối mặt, cũng như định hướng phát triển công nghệ này trong tương lai.

Các Thách Thức Hiện Tại của Trung tâm Liên lạc

Để xây dựng một giải pháp tuyệt vời, trước tiên chúng ta cần hiểu sâu sắc vấn đề. Vì vậy, hãy cùng xem xét tình trạng hiện tại của các hoạt động trung tâm liên lạc. Các trung tâm liên lạc là tuyến đầu của trải nghiệm khách hàng nhưng về mặt cấu trúc, chúng đang bị quá tải. Nếu bạn xem dữ liệu ngành, hơn 50% các trung tâm liên lạc xác định tuyển dụng, đào tạo và năng suất (productivity) là những rào cản quan trọng nhất của họ. Tại sao? Bởi vì công việc vô cùng khó khăn. Khi chúng ta phân tích lý do tại sao các tổng đài viên rời bỏ để theo các ngành nghề khác, căng thẳng cao là yếu tố số một. Các tổng đài viên được kỳ vọng phải xử lý những cảm xúc phức tạp của khách hàng, điều hướng qua nhiều nền tảng dữ liệu khách hàng hoặc hệ thống CRM khác nhau, và cũng phải ghi lại mọi thứ một cách hoàn hảo.

Điều này dẫn đến vấn đề giữ chân nhân viên lớn. Chúng ta bị mắc kẹt trong một vòng xoáy tiêu cực, nơi thiếu nhân sự dẫn đến căng thẳng cao hơn cho các tổng đài viên còn lại, điều này lại dẫn đến tăng cường luân chuyển nhân sự, và cuối cùng dẫn đến thiếu nhân sự hơn nữa. Để phá vỡ vòng luẩn quẩn này, chúng ta không thể chỉ tuyển thêm người. Chúng ta phải căn bản engineer (thiết kế kỹ thuật) loại bỏ căng thẳng khỏi quy trình làm việc.

Điểm kém hiệu quả rõ ràng nhất trong quy trình làm việc này là cái gọi là quy trình làm việc sau cuộc gọi (after-call workflow hay ACW), mà chúng ta sẽ thảo luận trong phần này. Theo các nghiên cứu cơ bản của chúng tôi, một cuộc gọi trung tâm liên lạc trung bình thường kéo dài khoảng 6,5 phút. Tuy nhiên, thời gian xử lý sau cuộc gọi trung bình, nơi tổng đài viên nhập các ghi chú, tóm tắt cuộc gọi và chọn mã trạng thái (disposition codes), mất gần 6,3 phút. Đây gần như là tỷ lệ một đối một. Điều này cũng ngụ ý rằng các tổng đài viên dành gần như nhiều thời gian cho việc nhập dữ liệu hành chính như thời gian họ thực sự nói chuyện với khách hàng. Hơn nữa, vì việc tóm tắt phụ thuộc vào trí nhớ và kỹ năng viết của từng tổng đài viên, chất lượng dữ liệu rất không nhất quán.

Nhiệm vụ kỹ thuật cốt lõi của chúng tôi ở đây là rõ ràng: sử dụng AI để giải quyết công việc sau cuộc gọi (ACW). Nếu chúng ta có thể tự động hóa việc tóm tắt và trích xuất dữ liệu, về lý thuyết, chúng ta có thể giảm thời gian xử lý sau cuộc gọi gần 50% hoặc thậm chí hơn. Điều này chuyển trọng tâm của doanh nghiệp từ việc chỉ đơn thuần xử lý cuộc gọi sang thực sự phân tích tiếng nói của khách hàng để tăng trưởng kinh doanh mà chúng ta đang tìm kiếm.

Kiến trúc Giải pháp Kỹ thuật

Vậy làm thế nào để chúng ta thực hiện sự thay đổi đó? Hãy cùng đi sâu vào giải pháp kỹ thuật và kiến trúc mà chúng tôi đã xây dựng để giải quyết vấn đề này. Chúng tôi đã thiết kế một pipeline (đường ống) bốn giai đoạn, độ trễ thấp để biến âm thanh hội thoại thành thông tin tình báo nghiệp vụ có cấu trúc với sự can thiệp của con người ở mức tối thiểu.

Thu nhận giọng nói (Voice Capture): Bắt đầu bằng việc khai thác hệ thống điện thoại để trích xuất các luồng âm thanh thô, độ chân thực cao.
Công cụ Chuyển giọng nói thành văn bản (Speech to Text - STT): Sau đó, dữ liệu chuyển đến công cụ STT của chúng tôi, chịu trách nhiệm cho việc phiên âm độ chính xác cao.
Lõi AI tạo sinh (Generative AI Core): Tiếp theo là bộ não của hệ thống, Generative AI core. Đây là nơi chúng tôi thực hiện công việc nặng nhọc về nhận dạng ý định (intent recognition) và tóm tắt.
Lớp Đồng bộ hóa Dữ liệu Khách hàng (Customer Data Sync Layer): Cuối cùng, lớp đồng bộ hóa dữ liệu khách hàng chuyển đổi những thông tin chi tiết từ AI đó thành các cuộc gọi API để tự động cập nhật dữ liệu khách hàng hoặc dữ liệu CRM.

Hãy cùng xem xét chi tiết kỹ thuật bên trong của từng thành phần này.

Thu nhận Giọng nói và Tiền xử lý

Thành phần đầu tiên là thu nhận giọng nói trong AI. Quy tắc thông thường là "rác vào thì rác ra" (garbage in equals garbage out). Vì vậy, nếu việc thu nhận âm thanh bị lỗi, LLM (Mô hình ngôn ngữ lớn) sẽ tạo ra "ảo giác" (hallucinate) sau này. Chúng tôi thực hiện thu nhận âm thanh thời gian thực. Việc áp dụng các bộ lọc tiếng ồn để loại bỏ tiếng ồn nền văn phòng hoặc bất kỳ nhiễu nào gây suy giảm tín hiệu là quan trọng, và việc chuẩn hóa mức âm thanh là rất, rất quan trọng đối với chúng tôi.

Điều cốt yếu là chúng tôi thực hiện ánh xạ kênh (channel mapping). Chúng tôi hoàn toàn phải tách âm thanh stereo để cô lập agent (người đại diện) trên một kênh (phía bên trái) và khách hàng ở phía bên kia (phía bên phải). Nếu bạn trộn chúng thành một monotrack duy nhất, chồng chéo lên nhau, AI sẽ gặp khó khăn trong việc xác định ai nói gì, từ đó làm hỏng toàn bộ bản tóm tắt phía sau. Vì vậy, điều quan trọng là chúng ta phải giữ nguyên ánh xạ kênh đó và nó phải tách biệt ai là ai và ai đang nói gì.

Cuối cùng, chúng tôi áp dụng một lớp bảo mật. Bởi vì đôi khi các luồng âm thanh có thể chứa số thẻ tín dụng hoặc mật khẩu, hoặc bất kỳ thông tin nhận dạng cá nhân nào (personally identifiable information - PII). Vì vậy, chúng tôi sử dụng quản lý bộ đệm (buffer management) và kỹ thuật che dấu PII ở giai đoạn đầu để dữ liệu nhạy cảm không bao giờ đi vào bộ nhớ LLM khi chúng tôi tiếp tục trong kênh.

Công cụ Chuyển giọng nói thành văn bản (STT)

Tiếp theo, âm thanh đi vào công cụ chuyển giọng nói thành văn bản (speech to text engine). Để AI tạo sinh hoặc LLM tóm tắt dữ liệu của bạn một cách hiệu quả, hoặc phản hồi của bạn một cách hiệu quả, chúng tôi nhận thấy rằng độ chính xác của speech to text (STT) phải trên 90%. Chúng tôi sử dụng acoustic modeling (mô hình hóa âm thanh) nâng cao để ánh xạ phonemes và lọc ra bất kỳ regional dialects (phương ngữ vùng miền) nào. Sau đó, chúng tôi áp dụng language logic (logic ngôn ngữ) bằng cách sử dụng các từ điển chuyên biệt theo từng lĩnh vực. Ví dụ, nếu đó là một đại lý bảo hiểm, công cụ STT cần biết sự khác biệt giữa "term life" và "term right". Cả hai đều rất gần nhau nhưng cần có sự khác biệt giữa chúng.

Cuối cùng, xử lý hậu kỳ cũng rất quan trọng. Chúng tôi sử dụng inverse text normalization và auto-punctuation. Ví dụ, nếu khách hàng nói "$5,000", công cụ speech to text phải xuất ra con số đó dưới dạng số. Và việc định dạng số này cải thiện đáng kể khả năng của LLM trong việc trích xuất các thực thể (entities) ở thời điểm sau.

Lõi AI tạo sinh

Bây giờ chúng ta đến với Generative AI Core (lõi AI tạo sinh). Chúng tôi không chỉ ném một bản ghi thô vào LLM mà còn yêu cầu nó tóm tắt. Chúng tôi sử dụng một cách tiếp cận được orchestrate (điều phối) cao trong trường hợp này. Trong lớp orchestration của chúng tôi, chúng tôi sử dụng các prompt templates (mẫu lời nhắc) cụ thể. Thiết lập của chúng tôi cho thấy rằng nếu bạn chỉ yêu cầu một LLM tóm tắt một cuộc gọi, nó sẽ xuất ra một đoạn văn bản kể chuyện lộn xộn. Thay vào đó, chúng tôi sử dụng các thư viện few-shot để hướng dẫn LLM xuất ra các bullet point (gạch đầu dòng) riêng biệt: một danh sách cho yêu cầu của khách hàng và một danh sách riêng cho hành động của tổng đài viên.

Sau đó là lớp suy luận (reasoning layer). Trong lớp suy luận, chúng tôi trích xuất ý định (intent). Chúng tôi cung cấp cho LLM một danh sách được xác định trước các lý do cuộc gọi của khách hàng như hủy bỏ, ứng dụng mới, hoặc bất kỳ loại trạng thái yêu cầu bồi thường nào, và hướng dẫn nó phân loại bản ghi và đưa ra lý do tại sao nó chọn phân loại cụ thể đó.

Và cuối cùng là lớp tin cậy (trust layer), nơi chúng tôi áp dụng token optimization để giữ độ trễ thấp và chạy các kiểm tra "ảo giác" tự động để đảm bảo bản tóm tắt được tạo ra là chặt chẽ và dựa trên bản ghi.

Đồng bộ hóa Dữ liệu Khách hàng

Trở ngại kỹ thuật cuối cùng là đưa dữ liệu tuyệt vời này trở lại tay của doanh nghiệp. API gateway của chúng tôi hoạt động như một schema mapper. Nó lấy đầu ra JSON từ LLM và ánh xạ các trường như ý định của khách hàng hoặc trạng thái giải quyết trực tiếp đến một số trường tương ứng dựa trên hệ thống CRM của công ty hoặc bất kỳ dữ liệu khách hàng nào mà chúng tôi đã thiết lập thông qua một số REST APIs.

Vì vậy, chúng tôi không loại bỏ hoàn toàn yếu tố con người trong quá trình này. Chúng tôi sử dụng một bước xác minh ở giữa tổng đài viên. Tổng đài viên thấy bản tóm tắt do AI tạo ra được tự động điền trên màn hình. Họ thực hiện một xác thực trường nhanh bằng mắt, thực hiện một vài chỉnh sửa nhỏ nếu cần và sau đó chỉ cần nhấp vào xác nhận. Đồng thời, dữ liệu có cấu trúc này chảy vào các mô hình business intelligence (thông tin tình báo kinh doanh) của chúng tôi, tổng hợp dữ liệu "tiếng nói của khách hàng" cho các dashboard (bảng điều khiển) quản lý và tự động gắn cờ các ứng viên cho các mục nhập dữ liệu FAQ mới.

Logic Quy trình làm việc của Dữ liệu

Để kết nối kiến trúc này lại với nhau, đây là logic quy trình làm việc tuyến tính của data pipeline (đường ống dữ liệu). Chúng tôi lấy bản ghi thô hoàn chỉnh với time indexing (lập chỉ mục thời gian), confidence scoring (chấm điểm độ tin cậy) và denoising (khử nhiễu). Chúng tôi chuyển nó qua speaker separation (tách người nói) vì chúng tôi đã tách các kênh stereo ở bước một. Chúng tôi có thể dễ dàng ghép các đoạn hội thoại lại với nhau một cách logic, như khách hàng nói X, agent nói Y.

Sau đó, chúng tôi chuyển sang context deduction (suy luận ngữ cảnh) nơi LLM phát hiện các thực thể (entities) như số tài khoản, tên sản phẩm hoặc tên khách hàng, chạy phân tích cảm xúc (sentiment analysis) và nhận dạng ý định (intent). Trạng thái cuối cùng là đầu ra có cấu trúc. Thay vì một khối văn bản, hệ thống xuất ra một JSON schema rõ ràng và sạch sẽ, khớp với một số dữ liệu khách hàng được xác định trước hoặc các mẫu CRM mà chúng tôi có trong doanh nghiệp, và sau đó được phân loại gọn gàng thành các bullet point. Và định dạng chặt chẽ này chính là điều biến một cuộc trò chuyện không có cấu trúc thành một asset (tài sản) sẵn sàng cho cơ sở dữ liệu.

Kết quả và Tác động Vận hành

Vậy điều gì xảy ra khi chúng ta triển khai kiến trúc này trong môi trường trung tâm liên lạc thực tế? Hãy cùng xem xét các kết quả. Các tác động vận hành từ việc triển khai khá tức thì và có thể đo lường được ở mức độ cao. Hãy nhìn vào thời gian ACW. Dưới hoạt động thủ công, công việc sau cuộc gọi trung bình là 6,3 phút. Được hỗ trợ bởi quy trình làm việc AI của chúng tôi, thời gian đó giảm xuống còn 3,1 phút, tức là giảm gần 50% thời gian xử lý. Nếu bạn tính toán điều đó trên 500 vị trí xử lý hàng ngàn cuộc gọi mỗi ngày, bạn đang nhìn thấy một khoản tiết kiệm vận hành khổng lồ, tương đương với việc thu hồi hàng chục nhân sự toàn thời gian chỉ từ góc độ hiệu quả.

Khía cạnh tiếp theo là chất lượng nhập dữ liệu. Nó chuyển từ việc rất chủ quan và biến đổi sang một đầu ra được tiêu chuẩn hóa và đồng nhất cao. Việc phân loại yêu cầu hoặc gắn thẻ lý do cuộc gọi chuyển từ việc phụ thuộc vào tâm trạng hoặc trí nhớ của tổng đài viên sang việc dựa trên logic chặt chẽ, tạo ra một bộ dữ liệu "tiếng nói của khách hàng" rất nhất quán cho quản lý. Và cuối cùng, bằng cách loại bỏ gánh nặng hành chính lặp đi lặp lại của việc nhập ghi chú, chúng tôi đã giảm tải nhận thức cho các tổng đài viên, từ đó ổn định hoạt động và trực tiếp chống lại căng thẳng liên quan đến nhân sự mà chúng tôi đã xác định ngay từ đầu cuộc thảo luận của mình. Điều này cuối cùng đã giảm thiểu tỷ lệ luân chuyển nhân sự mà chúng tôi đã xác định ngay từ đầu cuộc thảo luận.

Các Ràng buộc và Lộ trình Tương lai

Mặc dù các kết quả rất tuyệt vời, công việc kỹ thuật không bao giờ kết thúc và hãy nói về những hạn chế mà chúng tôi gặp phải trong lộ trình phát triển của mình trong tương lai.

Các Ràng Buộc Chính Hiện Tại

Chúng tôi hiện đang đối mặt với ba ràng buộc chính. Thứ nhất là độ chính xác của chuyển lời nói thành văn bản (STT accuracy). Toàn bộ bản tóm tắt AI tạo sinh của chúng tôi dựa vào bản ghi âm, vì vậy nếu công cụ STT không thể nhận diện các giọng nặng hoặc chất lượng âm thanh kém, Mô hình ngôn ngữ lớn (LLM) sẽ không có dữ liệu để xử lý. Do đó, tối ưu hóa STT là một cuộc chiến không ngừng đối với chúng tôi.

Thứ hai là chi phí thiết lập ban đầu. Mặc dù lợi tức đầu tư (ROI) dài hạn là rất lớn, nhưng việc tiêu thụ mã thông báo API ban đầu, đặc biệt khi chạy các suy luận Mô hình ngôn ngữ lớn (LLM) phức tạp trên các bản ghi dài 20 phút, có thể tốn kém. Đặc biệt trong giai đoạn mở rộng ban đầu, đây là những thách thức khó khăn, và chúng tôi không ngừng nỗ lực phát triển các kỹ thuật tối ưu hóa mã thông báo để giảm thiểu chi phí này.

Thứ ba là bảo mật và tuân thủ. Việc xử lý thông tin nhận dạng cá nhân (PII) hoặc bất kỳ loại thông tin nhạy cảm nào trong luồng âm thanh là rất phức tạp. Đảm bảo che chắn mạnh mẽ trước khi dữ liệu đến các endpoint đám mây là một yêu cầu nghiêm ngặt. Vì lý do này, chúng tôi thêm một số lớp bảo mật, điều này cuối cùng làm giảm độ trễ và tăng thêm một số chi phí chung từ góc độ kiến trúc. Vì vậy, chúng tôi vẫn đang tìm cách giảm bớt các lớp bổ sung đó và làm cho nó mạnh mẽ hơn về mặt thành phần.

Lộ Trình Phát Triển Ba Giai Đoạn

Để giải quyết những ràng buộc này và thúc đẩy giới hạn của những gì có thể, lộ trình của chúng tôi hiện được chia thành ba giai đoạn.

Giai Đoạn 1: AI Có Khả Năng Giải Thích (Explainable AI)

Giai đoạn 1 tập trung vào AI có khả năng giải thích. Chúng tôi muốn vượt ra ngoài việc chỉ tóm tắt cuộc gọi để thực sự huấn luyện các nhân viên tổng đài. Chúng tôi đang thiết kế các hệ thống để phân tích âm thanh sau cuộc gọi (post-call analysis) và cung cấp cho các nhân viên tổng đài phản hồi riêng tư, tức thì về các kỹ năng mềm, mức độ đồng cảm hoặc bất kỳ khía cạnh chính xác nào về thông tin.

Giai Đoạn 2: Dự Báo Nhân Sự (Predictive Staffing)

Giai đoạn 2 hướng đến dự báo nhân sự. Bằng cách lấy lượng lớn dữ liệu ý định đã được phân loại mà chúng tôi đang thu thập, chúng tôi có thể đưa chính xác dữ liệu ý định này vào một hệ thống phân tích chuỗi thời gian. Điều này sẽ cho phép quản lý lực lượng lao động dự báo chính xác các đỉnh điểm về khối lượng cuộc gọi dựa trên các chủ đề cụ thể đó, từ đó tối ưu hóa việc sắp xếp lịch làm việc.

Giai Đoạn 3: Chống Lại Quấy Rối Khách Hàng

Giai đoạn 3 có lẽ là quan trọng nhất đối với hạnh phúc của con người: chống lại sự quấy rối của khách hàng. Nhân viên trung tâm liên lạc thường xuyên phải đối mặt với ngày càng nhiều hành vi lạm dụng bằng lời nói. Chúng tôi đang phát triển một hệ thống phân tích cảm xúc và âm thanh độ trễ thấp có thể phát hiện khi khách hàng trở nên lạm dụng. Cuối cùng, hệ thống có thể kích hoạt các cảnh báo (ví dụ: đến người giám sát hoặc bất kỳ ai từ cấp quản lý cao hơn) hoặc chuyển cuộc gọi một cách liền mạch cho một tác nhân AI giọng nói để bảo vệ sức khỏe tâm thần của nhân viên tổng đài trong các cuộc trò chuyện khó khăn này.

Kết Luận và Lời Mời Kết Nối

Bằng cách áp dụng các kỹ thuật kỹ thuật nghiêm ngặt này vào dữ liệu âm thanh phức tạp, chúng ta chắc chắn có thể biến các trung tâm liên lạc từ những trung tâm gây căng thẳng cao thành những công cụ thu thập thông tin và hoạt động hiệu quả cao, đồng thời bảo vệ lực lượng lao động của họ. Đó là toàn bộ ý tưởng của việc này, phải không? Cảm ơn rất nhiều vì thời gian và đã lắng nghe tôi. Tôi đã đính kèm mã QR của mình, tôi sẽ hiển thị nó ở đây để bạn có thể tìm tôi trên LinkedIn. Vui lòng kết nối nếu bạn muốn thảo luận về kiến trúc hoặc bất kỳ chiến lược kỹ thuật prompt nào liên quan đến cuộc thảo luận chúng ta vừa có. Tôi rất vui được kết nối và cùng làm việc, chúng ta có thể có thêm nhiều cuộc trò chuyện. Cảm ơn rất nhiều vì đã lắng nghe tôi, và chúc một ngày tốt lành. Tạm biệt.

TL;DR

Trung tâm liên lạc hiện đại đối mặt với thách thức lớn về năng suất và giữ chân nhân viên do quy trình làm việc sau cuộc gọi (ACW) thủ công, mất nhiều thời gian và không nhất quán.
Giải pháp WiseOps sử dụng một kiến trúc đường ống bốn giai đoạn, độ trễ thấp với AI tạo sinh để chuyển đổi âm thanh hội thoại hỗn tạp thành thông tin nghiệp vụ có cấu trúc, tự động hóa và cải thiện chất lượng dữ liệu.
Việc triển khai này giúp giảm gần 50% thời gian xử lý ACW, cải thiện đáng kể chất lượng dữ liệu và giảm tải nhận thức cho tổng đài viên, mang lại lợi tức đầu tư (ROI) và tác động vận hành cao.

Điểm chính

Xử lý âm thanh chất lượng cao là nền tảng: Đảm bảo thu nhận giọng nói thời gian thực, áp dụng bộ lọc tiếng ồn, chuẩn hóa mức âm thanh và đặc biệt là ánh xạ kênh (channel mapping) để tách riêng âm thanh của tổng đài viên và khách hàng là rất quan trọng để tránh "rác vào, rác ra".
Bảo mật PII từ sớm: Sử dụng quản lý bộ đệm và kỹ thuật che dấu thông tin nhận dạng cá nhân (PII) ngay từ giai đoạn thu nhận giọng nói để ngăn dữ liệu nhạy cảm đi vào bộ nhớ mô hình ngôn ngữ lớn (LLM).
Độ chính xác STT cao là bắt buộc: Công cụ chuyển giọng nói thành văn bản (STT) phải đạt độ chính xác trên 90%, sử dụng mô hình hóa âm thanh nâng cao và từ điển chuyên biệt theo từng lĩnh vực để xử lý phương ngữ và thuật ngữ ngành.
Sử dụng orchestration cho Generative AI: Thay vì đưa bản ghi thô vào LLM, hãy sử dụng các prompt templates được điều phối cao và thư viện few-shot để hướng dẫn LLM xuất ra thông tin có cấu trúc (ví dụ: gạch đầu dòng riêng biệt cho yêu cầu khách hàng và hành động của tổng đài viên).
Tập trung vào nhận dạng ý định và giảm thiểu ảo giác: Phát triển lớp suy luận (reasoning layer) để trích xuất ý định và phân loại cuộc gọi dựa trên các lý do được xác định trước, đồng thời áp dụng lớp tin cậy (trust layer) với token optimization và kiểm tra "ảo giác" tự động.
Tích hợp dữ liệu có cấu trúc với CRM/API: Sử dụng API gateway làm schema mapper để chuyển đổi đầu ra JSON của LLM thành các cuộc gọi API cập nhật dữ liệu khách hàng hoặc CRM một cách tự động, kết hợp với bước xác minh của con người.
Xây dựng lộ trình phát triển với các tính năng nâng cao: Kế hoạch mở rộng bao gồm AI có khả năng giải thích (Explainable AI) để đào tạo tổng đài viên, dự báo nhân sự (Predictive Staffing) dựa trên dữ liệu ý định, và phát hiện/phòng chống quấy rối khách hàng (Customer Harassment Prevention).

Từ vựng

Generative AI — AI tạo sinh
After-call workflow (ACW) — quy trình làm việc sau cuộc gọi
Return on Investment (ROI) — Lợi tức đầu tư
Speech to Text (STT) — Chuyển giọng nói thành văn bản
Pipeline — đường ống (trong kỹ thuật dữ liệu)
Channel mapping — ánh xạ kênh
Personally Identifiable Information (PII) — thông tin nhận dạng cá nhân
Large Language Model (LLM) — Mô hình ngôn ngữ lớn
Hallucinate — tạo ra "ảo giác" (thuật ngữ AI)
Prompt templates — mẫu lời nhắc
Orchestration — điều phối
Intent recognition — nhận dạng ý định
Sentiment analysis — phân tích cảm xúc
Explainable AI — AI có khả năng giải thích
Predictive Staffing — dự báo nhân sự

Nội dung chi tiết