Pharma Voice Auditor — Báo cáo kết quả test UC2

1. Tổng quan

2. Heatmap F1

3. Thiết bị

4. Chi tiết phiên

5. Kết luận

6. Phụ lục

1 Mục tiêu

Bài test được thực hiện nhằm đánh giá khả năng của hệ thống AI trong việc tự động nhận diện hành vi tư vấn tại nhà thuốc thông qua phân tích hội thoại âm thanh.

Kịch bản test

Thiết bị

Môi trường

Hành vi nhận diện

2 Phạm vi test

Thiết bị

Micro cài áo (Lavalier)
Micro để bàn (Table Mic)
Micro điện thoại (Phone)

Môi trường

Lab (kiểm soát)
SP1 (noise store + traffic)
SP2 (mixed voice)

Pipeline

Audio → PhoWhisper STT → GPT-4o Analysis

3 Heatmap F1-score theo Thiết bị và Môi trường

Click vào ô để xem chi tiết phiên. Màu càng xanh đậm → F1 càng cao.

Thiết bị + Môi trường

Đánh giá tổng quan: Hệ thống duy trì F1-score phần lớn trong khoảng 0.6 – 0.8 trên nhiều điều kiện khác nhau, cho thấy mức hiệu năng ổn định và sẵn sàng cho giai đoạn pilot.

4 Đánh giá theo thiết bị thu âm

5 Chi tiết từng phiên thu âm

Click vào phiên để xem chi tiết các lượt tư vấn, phân tích hành vi và nghe lại âm thanh.

6 Kết luận

Tổng thể, thử nghiệm cho thấy hệ thống AI:

Hoạt động ổn định trong nhiều điều kiện thực tế
Không phụ thuộc vào môi trường lý tưởng
Có thể triển khai với nhiều loại thiết bị khác nhau

Trong đó, micro cài áo hiện là cấu hình mang lại hiệu quả tốt và ổn định nhất cho triển khai thực tế.

Ngoài ra, kết quả cũng chỉ ra rằng chất lượng thu âm có ảnh hưởng trực tiếp đến hiệu quả phân tích. Điều này là tín hiệu tích cực vì đây là yếu tố có thể cải thiện dễ dàng thông qua lựa chọn thiết bị phù hợp, thay vì phải thay đổi mô hình AI.

A Các tiêu chí đánh giá

B Dataset kịch bản test

C Ground Truth

D Chi tiết kết quả theo phiên

So sánh dự đoán của hệ thống với ground truth cho từng kịch bản test. 1 = đúng, sai, -1 = non-consultation

E Thông tin thiết bị

F System Prompts

G Fisheye Mic — Transcript & Audio

Bản ghi âm và transcript từ phiên thu Fisheye Mic. Click vào nút play để nghe từng đoạn.