Logo

NGHIÊN CỨU VÀ PHÁT TRIỂN GIẢI PHÁP
THEO DÕI CHUYỂN ĐỘNG MẮT
HỖ TRỢ TRẺ RỐI LOẠN PHÁT TRIỂN

Nghiên cứu sinh: Nguyễn Thị Quỳnh Hoa

Người hướng dẫn: PGS.TS. Lê Thanh Hà & TS. Ngô Thị Duyên

Chuyên ngành: Khoa học máy tính
Mã số: 9480101
I. NỘI DUNG BÁO CÁO
2/79
I
Mở đầu
  • Đặt vấn đề & Thực trạng
  • Hạn chế phương pháp cũ
  • Mục tiêu & Phạm vi
II
Xây dựng bộ dữ liệu đa phương thức
  • Kiến trúc thu thập đồng bộ
  • Kịch bản kích thích ASD
  • Kịch bản Dyscalculia
III
Trích xuất đặc trưng thị giác
  • Thuật toán PeyeMMV
  • Mô hình SAM Zero-shot
  • Định lượng dấu ấn (SQ)
IV
Hỗ trợ can thiệp cá nhân hoá
  • Giả thuyết Mắt - Tâm
  • Phân loại SVM (ASD)
  • Mạng Bayesian Động (DBN)
V
Hỗ trợ đa nền tảng
  • Nền tảng di động
  • Nền tảng web
VI
Kết luận & Đóng góp
  • Tổng kết đóng góp khoa học
  • Hạn chế & Hướng tương lai
  • Công trình công bố
I. PHÁT BIỂU BÀI TOÁN
3/79

Bối cảnh

  • Khai phá dữ liệu hành vi: Mô hình hóa nhận thức là bài toán có độ phức tạp cao.
  • Thách thức gia tăng: Trẻ rối loạn phát triển gặp rào cản ngôn ngữ, vận động và độ nhiễu dữ liệu lớn.
  • Dữ liệu chuyển động mắt: Nguồn tín hiệu vi mô liên tục, khách quan và giàu hàm lượng thông tin nhận thức.

Lượng hóa cơ chế nhận thức

Theo dõi chuyển động mắt (Eye-tracking) khắc phục rào cản quan sát chủ quan nhờ khả năng định lượng trực tiếp các cơ chế nhận thức vi mô thông qua các chỉ số cốt lõi:

  • Điểm dừng mắt (Fixation): Xảy ra khi mắt khóa vào một vị trí (100-300ms). Đây là lúc não bộ thực sự trích xuất và xử lý thông tin. Thời gian dừng càng lâu chứng tỏ tải trọng nhận thức càng lớn.
  • Bước nhảy mắt (Saccade): Tốc độ chuyển động cực nhanh giữa các điểm dừng. Trong lúc nhảy, thị giác bị ức chế. Nó phản ánh rõ nét chiến lược tìm kiếm của não bộ.
  • Chỉ số Entropy: Đo lường sự hỗn loạn của quỹ đạo nhìn. Entropy thấp nghĩa là trẻ dự đoán được quy luật; Entropy cao phản ánh sự mất phương hướng, bối rối và sinh ra Lỗi dự đoán lớn.

Giải phẫu Hành vi Thị giác & Dữ liệu Tính toán

1. ÁNH XẠ DỮ LIỆU (RAW DATA) Vector: (x,y,t) 2. PHÂN TÍCH CẤU TRÚC ĐƯỜNG QUÉT FIXATION (Xử lý thông tin) SACCADE (Chuyển hướng chú ý) 3. ĐO LƯỜNG SỰ HỖN LOẠN NHẬN THỨC (ENTROPY) Entropy Thấp (Ổn định) Trẻ dễ dàng tìm thấy quy luật Entropy Cao (Quá tải) Quỹ đạo mất phương hướng, bối rối
I. RỐI LOẠN PHÁT TRIỂN
4/79

Thực trạng & Thách thức Toàn cầu

  • Rối loạn phát triển: là nhóm hội chứng xuất hiện sớm trong quá trình trưởng thành, gây suy giảm khả năng tương tác xã hội và hạn chế năng lực tiếp thu kiến thức của trẻ. Nhóm này bao gồm các tình trạng phổ biến như rối loạn phổ tự kỷ, chứng khó đọc và chứng khó tính toán.
  • Hậu quả dai dẳng: Suy giảm nghiêm trọng hiệu quả học tập, tạo rào cản hòa nhập xã hội và làm tăng nguy cơ mắc các vấn đề sức khỏe tâm thần (lo âu, trầm cảm).
Tự kỉ (ASD)
1/36
trẻ em
Khó đọc
7-20%
học sinh
Khó tính toán
3-7%
học sinh

Đặc trưng thị giác của trẻ RLPT

  • Trẻ có rối loạn phổ tự kỉ: Ưu tiên quan sát các hình khối và giảm sự tập trung vào khuôn mặt người.
  • Trẻ khó tính toán: Sự thiếu tập trung vào vị trí mục tiêu và mất nhiều thời gian hơn để nhận diện các ký hiệu số học.
  • Trẻ khó đọc: Có xu hướng dừng mắt lâu hơn và thường xuyên nhìn ngược lại các phần nội dung văn bản đã qua.
I. HẠN CHẾ CỦA GIẢI PHÁP HIỆN TẠI
5/79

Khoảng trống liên ngành

Thiếu hụt một khung hiểu biết hệ thống về bản chất của dữ liệu liên ngành, dẫn đến tính ứng dụng thực tế còn hạn chế.

Nguyên nhân không nằm ở phần cứng mà ở sự thiếu hụt khung lý thuyết đồng bộ.

Nhu cầu về tính diễn giải

Các nghiên cứu hiện tại thường ứng dụng mô hình học máy thiếu tính diễn giải.

Trong bối cảnh lâm sàng, khả năng giải thích là yêu cầu tiên quyết để đảm bảo độ tin cậy trong chẩn đoán và can thiệp cho trẻ.

⇒ Động lực của hệ thống hoá tài liệu

Sự cần thiết: Chuyển hóa các biểu hiện lâm sàng phức tạp thành các bài toán thành phần có thể giải quyết bằng tính toán. Do vậy, hệ thống hóa tài liệu đóng vai trò xác định các hướng nghiên cứu trọng tâm thay vì chỉ tổng hợp đơn thuần.

Mục tiêu: Tạo ra nền tảng lý thuyết vững chắc cho các thuật toán đề xuất ở giai đoạn sau của luận án.

I. KẾT QUẢ HỆ THỐNG HOÁ CÁC NGHIÊN CỨU & HẠN CHẾ VỀ DỮ LIỆU
6/79

4 hướng nghiên cứu chính

Phân tích đặc trưng

Trích xuất và định lượng các mẫu hành vi thị giác vi mô.

Chẩn đoán

Sử dụng dữ liệu thị giác để nhận diện sớm các dấu hiệu.

Can thiệp

Điều hướng sự chú ý & tối ưu hóa giao diện tương tác.

Đánh giá

Đo lường sự thay đổi nhận thức theo chuỗi thời gian.

Quy trình thực hiện (Kitchenham & Charters):

Xác định: Truy vấn đa nguồn (PubMed, Google Scholar, Scopus, WoS, ACM).

Sàng lọc: Kiểm tra tiêu đề, tóm tắt theo tiêu chí mức độ liên quan.

Đánh giá: Phân tích toàn văn, loại bỏ trùng lặp và công trình không phù hợp.

Phạm vi và Phân loại:

Cơ sở dữ liệu: 170 (RLPTK) + 169 (Khó tính toán) + Tham chiếu (Khó đọc).

Ba hướng tiếp cận: (1) Phân tích đặc trưng, (2) Chẩn đoán, (3) Can thiệp và Đánh giá.

Vai trò của bộ dữ liệu

Yếu tố quyết định hiệu quả

Quá trình hệ thống hóa chỉ ra rằng tập dữ liệu (Data sets) chính là rào cản cốt lõi quyết định hiệu quả của các mô hình.

Năng lực của thuật toán chịu sự giới hạn trực tiếp từ chất lượng và tính chuẩn hóa của dữ liệu chuỗi thời gian đầu vào.

Hạn chế thực thi dữ liệu

Về thu thập: Phương pháp kiểm thử trực tiếp tạo ra tập dữ liệu nhỏ, nhiều nhiễu, hạn chế khả năng tổng quát hóa.

Về xử lý: Gán nhãn thủ công dữ liệu động (video) tốn nguồn lực khổng lồ, gây thiếu hụt dữ liệu huấn luyện.

I. PHÁT BIỂU BÀI TOÁN, MỤC TIÊU VÀ PHẠM VI NGHIÊN CỨU
7/79

1. Dữ liệu về trẻ RLPT

Lệch pha (Desync): Mắt (liên tục), Chuột (rời rạc) và Âm thanh hoạt động trên các xung nhịp khác nhau. Nếu không căn chỉnh cùng trục thời gian (T₀), không thể phân tích quan hệ Nghe-Nhìn.

Nhiễu: Dữ liệu y sinh ở trẻ có độ nhiễu cao do rung lắc đầu.

2. Phân tích đặc trưng trong khung hình động

Kích thích video có nhiều đối tượng di chuyển, biến dạng liên tục. Việc vẽ đa giác khoanh Vùng quan tâm (AOI) thủ công cho từng khung hình là nút thắt cổ chai về hiệu suất.

3. Phương pháp hỗ trợ chưa hiệu quả

Thiếu vắng các mô hình Toán học/Xác suất để chuyển đổi dữ liệu tọa độ (x,y) thành "chiến lược nhận thức" (ngữ nghĩa). Khoảng trống trong việc xây dựng hệ thống thích ứng.

Mục tiêu Nghiên cứu

  • 1. Dữ liệu: Xây dựng bộ dữ liệu đa phương thức chuẩn hóa, độ phân giải cao cho trẻ RLPT.
  • 2. Trích xuất: Tự động hóa quy trình trích xuất đặc trưng thị giác bằng các Mô hình Nền tảng (Foundation Models) nhằm loại bỏ nút thắt gán nhãn thủ công.
  • 3. Mô hình: Xây dựng các thuật toán xác suất và đồ thị phụ thuộc để lượng hóa chiến lược nhận thức.
  • 4. Hệ thống: Thiết kế và kiểm chứng thực nghiệm 3 phần mềm giáo dục can thiệp cá nhân hóa (End-to-end).
DỮ LIỆU TRÍCH XUẤT MÔ HÌNH HỆ THỐNG Luồng Đóng góp Nghiên cứu (End-to-End Pipeline)
II. BÀI TOÁN NGHIÊN CỨU 1
8/79
PHƯƠNG PHÁP XÂY DỰNG BỘ DỮ LIỆU
ĐA PHƯƠNG THỨC
Định nghĩa bài toán nghiên cứu 1 (chương 2)
9/79

Sự lệch pha Đa phương thức

Audio Âm thanh phát Mắt Mắt phản xạ Chuột Click Chuột Sai số Lệch pha T

Mô hình Căn chỉnh Thời gian (Time-Alignment)

Gaze (Mắt) Audio (Tai) Mouse (Tay) Alignment Mô hình Nhận thức (Nghe câu hỏi + Mắt tìm kiếm) Lỗi kết nối?

Yêu cầu

  • Tính đồng bộ (Synchronization): Khớp nối chuỗi thời gian giữa ảnh nhìn, âm thanh và tương tác.
  • Tính đặc trưng: Dữ liệu phản ánh đặc điểm riêng biệt của từng nhóm trẻ RLPT.
  • Chuẩn đầu ra: Xác định các thông số như Fixations, Saccades từ nhiều nguồn thiết bị.

Mục tiêu trọng tâm

Chuyển hóa nhu cầu lâm sàng thành bài toán kỹ thuật hợp nhất dữ liệu (Data Fusion).

II. CÁC NGHIÊN CỨU LIÊN QUAN
10/79
Bộ dữ liệu /
Mô hình nghiên cứu
Đối tượng mục tiêu chính Mô hình phần cứng /
thiết bị theo dõi mắt
Tần số lấy mẫu Thiết lập /
Môi trường thí nghiệm
Tập dữ liệu CopCo 23 Chứng khó đọc / Người lớn (ngôn ngữ thứ hai) EyeLink 1000 Plus 1000 Hz Phòng thí nghiệm độ chính xác cao
ETDD70 23 Chứng khó đọc (9–10 tuổi) Điều khiển từ xa SMI RED 250 Hz Phòng thí nghiệm được kiểm soát
Dự án DIDUNAS Nguy cơ mắc chứng khó tính toán (lớp 1) Tobii Pro X3-120 (Thông thường) 120 Hz Trường học / Môi trường được kiểm soát
Saliency4ASD 3 Trẻ em mắc chứng tự kỷ và trẻ em phát triển bình thường Điện thoại di động SMI RED 60 Hz Phòng thí nghiệm, màn hình 17 inch, khoảng cách 60 cm
Bộ dữ liệu Serbia 15 Chứng khó đọc (7–13 tuổi) Bộ theo dõi hai chế độ không xác định 30 Hz & 60 Hz Cấu hình màu được kiểm soát
Sàng lọc máy tính bảng 16 Chứng khó đọc (8–13 tuổi) Galaxy Tab S5e (VisualCamp SeeSo) ~30 Hz Môi trường sinh thái / Trường học
Đọc WebGazer 33 Rối loạn thần kinh khác biệt (ADHD, ASD) Webcam tiêu chuẩn (WebGazer SDK) ~30 Hz Giáo dục từ xa / trực tuyến
II. PHƯƠNG PHÁP ĐỀ XUẤT & THIẾT KẾ KỊCH BẢN KÍCH THÍCH
11/79

Quy trình xây dựng bộ dữ liệu đa phương thức được thực hiện qua 4 bước:

1

Thiết kế kịch bản

Tích hợp kích thích thị giác & tương tác

2

Triển khai hệ thống

Thiết lập phần cứng & kiến trúc luồng

3

Đồng bộ & Hợp nhất

Kỹ thuật Master Clock & Data Fusion

4

Bộ dữ liệu

Lưu trữ và chuẩn hóa đầu ra

Sơ đồ: Quy trình 4 bước xây dựng bộ dữ liệu.

Do sự khác biệt về biểu hiện lâm sàng, kịch bản được chia làm 2 nhánh chuyên biệt:

Nhóm trẻ tự kỷ (ASD)

  • Tập trung vào yếu tố bất ngờ và động
  • Mục tiêu đo lường: Bộ từ trong ....

Nhóm trẻ khó tính toán

  • Tích hợp các bài toán từ đơn giản đến phức tạp.
  • Yêu cầu đo lường nhiều kênh giác quan
II. KỊCH BẢN 1: BÀI TOÁN NHÂN QUẢ & SIÊU HỆ THỐNG HÓA
12/79

Thuyết Siêu hệ thống hóa (Hyper-Systemizing)

Não bộ trẻ RLPTK được ví như những cỗ máy "siêu hệ thống hóa", luôn tìm kiếm các quy luật: Đầu vào → Quy tắc → Đầu ra.

Thiết kế Kịch bản Lâm sàng: Đồ chơi "Gấu & Nút"

  • Tạo ra một Xung đột thị giác trên cùng một màn hình.
  • Tác nhân Cơ học: Nút bấm vật lý, tất định, hoàn hảo, có thể giải mã 100%.
  • Tác nhân Xã hội: Khuôn mặt gấu phát sáng, cảm xúc, ngẫu nhiên, phi logic.
  • Đo lường: Eye-tracking xác định hệ thống nào được trẻ ưu tiên "khóa" ánh nhìn.

Minh họa kịch bản kích thích

Minh họa logo cho kịch bản kích thích

Mô phỏng Bộ lọc Nhận thức & Xung đột

BỘ LỌC QUY LUẬT Cơ học Dự đoán 100% Xã hội KHÔNG QUY LUẬT Lỗi Dự đoán
II. KỊCH BẢN 2: LỖI DỰ ĐOÁN & SỰ QUÁ TẢI (HIPPE)
13/79

Mã hóa Dự đoán & Thuyết HIPPE

Não bộ liên tục dự đoán tương lai. Lỗi dự đoán xảy ra khi thực tế khác với kỳ vọng. Thuyết HIPPE (High Inflexible Precision of Prediction Errors) cho rằng não bộ RLPTK gán trọng số cực cao cho mọi sai lệch, dù là nhỏ nhất.

Kích thích Thực nghiệm: Jack-in-the-Box

  • Giai đoạn Tĩnh: Tay quay hộp nhạc xoay đều đặn (Dễ dự đoán, Entropy thấp). Trẻ thiết lập mô hình an toàn.
  • Đột biến (Surprise): Chú hề 3D bật nắp. Sự kiện này phá vỡ mô hình an toàn, tạo ra một Lỗi dự đoán (Prediction Error).
  • Hệ quả: Nhóm TD hấp thụ sự bất ngờ thành niềm vui khám phá. Nhóm ASD bị hệ thống HIPPE khuếch đại lỗi, dẫn đến Quá tải nhận thức và sụp đổ hệ thống xử lý.

Mô phỏng Cơ chế Quá tải Nhận thức

SỰ BẤT NGỜ (LỖI DỰ ĐOÁN) Trẻ Điển hình (TD) Lọc linh hoạt DUNG NẠP (Tò mò & Khám phá) Trẻ RLPTK (ASD) Khuếch đại (HIPPE) MÔ HÌNH CỨNG NHẮC QUÁ TẢI NHẬN THỨC!
II. ĐÁP TRẢ LÂM SÀNG: SỰ ÁC CẢM & LẢNG TRÁNH ÁNH NHÌN
14/79

Học tập Tích cực (Nhóm TD)

Não bộ điển hình xử lý "sự bất ngờ" (chú hề bật ra) như một tín hiệu học tập tích cực. Nó kích hoạt hệ thống Dopamine, tạo ra sự tò mò và thu hút ánh nhìn (Fixation) trực tiếp vào khuôn mặt 3D để khám phá.

Lảng tránh để Tự xoa dịu (Nhóm ASD)

Với hệ thống HIPPE, sự bất ngờ trở thành một Lỗi khổng lồ gây lo âu tột độ. Cơ chế phòng vệ được kích hoạt:

  • Trẻ thực hiện một bước nhảy mắt cực nhanh (Saccade) lảng tránh khỏi khuôn mặt động.
  • Ánh nhìn "khóa" chặt vào họa tiết 2D tĩnh bên hông hộp, vùng an toàn và dễ dự đoán.
  • Hệ quả: Đây là nỗ lực điều chỉnh cân bằng nội môi để giảm tải nhận thức, không phải do trẻ thiếu khả năng nhìn nhận khuôn mặt.

Minh họa đáp trả lâm sàng

Minh họa logo cho đáp trả lâm sàng

Mô phỏng Phân ly Quỹ đạo Ánh nhìn

Vùng Tĩnh (2D) Vùng Động (3D) Tò mò (Dopamine) Saccade (Né tránh) QUÁ TẢI!
KỊCH BẢN DYSCALCULIA 1: TIỀN ĐỀ NHẬN THỨC KHÔNG GIAN
15/79

1. Hình Nền Thị Giác (Figure-Ground)

Đánh giá khả năng bóc tách thông tin quan trọng (số, hình học) ra khỏi các nhiễu nền xung quanh. Đây là tiền đề quan trọng giúp trẻ không bị nhìn nhảy dòng hay nhầm lẫn các con số khi đặt tính.

3 Quét tìm mục tiêu
Minh họa logo cho hình nền thị giác

2. Ký Hiệu Mũi Tên (Direction)

Kiểm tra năng lực định hướng không gian (Trái/Phải, Lên/Xuống). Sự nhạy bén với hướng của mũi tên là cơ sở để trẻ hiểu về sự tăng/giảm trên trục số và các phép tính có hướng.

Khóa mắt (Fixation) vào hướng
Minh họa logo cho ký hiệu mũi tên

3. Tương Quan Vị Trí (Spatial)

Đánh giá khả năng phân biệt vị trí tương đối giữa các vật thể (Ví dụ: Hình tròn nằm bên trong hay bên ngoài chiếc hộp). Đây là yếu tố cốt lõi của tư duy hình học và phân số.

TRONG NGOÀI Saccade đối chiếu
Minh họa logo cho tương quan vị trí
KỊCH BẢN DYSCALCULIA 2: NHẬN DIỆN & XỬ LÝ SỐ LƯỢNG
16/79

4. Đếm dấu chấm (Subitizing vs Counting)

Subitizing là khả năng nhận diện ngay lập tức số lượng nhỏ (1-4) mà không cần đếm. Trẻ khó tính toán thường mất khả năng này và phải đếm từng điểm một.

Minh họa logo cho bài đếm dấu chấm
Điển hình 1 Fixation Dyscalculia 3 Fixations

5. Nhận dạng số (Number Recognition)

Yêu cầu trẻ tìm một số cụ thể lẫn lộn giữa các chữ cái hoặc ký hiệu có hình dáng tương đồng, ví dụ số 5 lẫn với chữ S hoặc số 2.

S E 2 Z 5 8 Sự nhầm lẫn do hình thái tương tự (Visual confusion)
KỊCH BẢN DYSCALCULIA 3: ĐƯỜNG SỐ (NUMBER LINE)
17/79

6. Ánh xạ Không gian - Số học

Khả năng ước lượng vị trí của một số trên trục là biểu hiện rõ nhất của "Mental Number Line". Thử nghiệm chia làm 3 phiên bản độ khó tăng dần.

  • V1 (Cơ bản): Trục 0-10 có đầy đủ vạch chia. Đo khả năng đếm/nhảy vạch.
  • V2 (Trung bình): Trục 0-100 chỉ có mốc hai đầu và mốc giữa (50). Đo lường khả năng dùng "neo" (Anchoring).
  • V3 (Trừu tượng): Trục không có vạch chia. Yêu cầu tính toán tỷ lệ thuần túy (Proportional reasoning).

Minh họa đường số

Minh họa logo cho kịch bản đường số

Mô phỏng Quỹ đạo Ánh nhìn Tìm kiếm

Tìm vị trí số "75" V2: Trục neo 0 50 100 TD dùng neo 50 nhảy lên V3: Trừu tượng 0 100 Dyscalculia quét hỗn loạn (Mất phương hướng không gian)
KỊCH BẢN DYSCALCULIA 4: ĐỒNG BỘ NGHE NHÌN
18/79

7. Đồng bộ Đa phương thức (A-V Sync)

Não bộ cần đồng bộ hóa âm thanh nghe được (phonological) với hình ảnh trực quan (visual) của con số.

  • Nhiệm vụ: Loa phát âm thanh "Số Bốn", trên màn hình hiển thị các số [2, 4, 7, 9].
  • Đo lường: Tính toán độ trễ thời gian phản ứng (RT_AV) từ lúc kết thúc âm thanh đến khi ánh mắt khóa chặt (Fixation) vào đúng mục tiêu.
  • Đặc trưng Dyscalculia: Trẻ gặp khó khăn trong việc gán nhãn ngữ âm vào biểu tượng, dẫn đến độ trễ RT_AV rất cao, ánh mắt lơ đễnh hoặc nhìn nhầm số.

Đo lường Độ trễ Phản hồi (Latency)

Audio Phát: "SỐ BỐN" Audio Offset (T₀) 4 2 7 RT_AV (Delay) Gaze Lock
II. KIẾN TRÚC TỔNG THỂ: THU THẬP DỮ LIỆU TỰ KỶ (ASD)
19/79

Luồng xử lý mô-đun: Kiến trúc hệ thống tích hợp chặt chẽ giữa phần cứng (thiết bị theo dõi mắt Eye-tracker) và một ngăn xếp phần mềm chuyên dụng để phân tích hành vi thị giác của trẻ Rối loạn Phổ Tự kỷ.

Các tiến trình cốt lõi: Cung cấp kích thích thị giác (Visual stimuli) → Ghi nhận chuyển động mắt → Tiền xử lý dữ liệu → Nhận dạng Vùng quan tâm (AOI) bằng AI → Trích xuất đặc trưng và Phân loại tự động.

Kiến trúc Tổng thể ASD
II. KIẾN TRÚC TỔNG THỂ: DỮ LIỆU KHÓ TÍNH TOÁN (DYSCALCULIA)
20/79

Tùy biến cho nhận thức số học: Hệ thống được thiết kế chuyên biệt để ghi nhận phản xạ của trẻ Dyscalculia khi tương tác trực tiếp với các bài tập toán học, trục số và không gian trên màn hình máy tính.

Ánh xạ và Trực quan hóa: Luồng dữ liệu cho phép liên kết tọa độ ánh nhìn của trẻ với các tương tác phần mềm, từ đó xuất ra các Bản đồ nhiệt (Heatmap) và Quỹ đạo quét mắt (Scanpath) chi tiết để chẩn đoán chiến lược nhận thức.

Kiến trúc Tổng thể Dyscalculia
II. GIẢI PHÁP THỰC HIỆN 2: BÙ TRỪ ĐỘ TRỄ & ĐỒNG BỘ VÒNG KÍN
21/79

Mô hình Bù trừ Độ trễ (Latency)

Dù có Master Clock, bản thân phần cứng vẫn có độ trễ truyền tín hiệu. Thuật toán xử lý dữ liệu phải áp dụng các công thức chuẩn hóa ngược:

1. Đồng bộ Eye-tracking & Chuột:

T_real = T₀ + tᵢ

2. Bù đắp độ trễ phần cứng hiển thị Video (δ):

T_frame_0 = T_start_time + δ

3. Khung thời gian Audio tương đối:

Δt = t_offset - t_onset

Bản đồ Ánh xạ (Timeline Mapping)

Trục thời gian hệ thống (T₀) T₀ Khởi tạo Gaze Event eᵢ + tᵢ Video Buff δ Frame 0 Audio Δt t_onset t_offset

II. KIẾN TRÚC HỆ THỐNG THU THẬP & ĐỒNG BỘ VÒNG KÍN

Giải pháp Kiến trúc Hệ thống

Xây dựng một kiến trúc End-to-End để ép buộc các thiết bị hoạt động ở các xung nhịp khác nhau ghi dữ liệu lên một Master Clock duy nhất.

  • Tầng Thu thập (Cảm biến): Tobii Eye-tracker (90Hz) lấy tín hiệu nhãn cầu; Màn hình (60Hz) ghi lại frame hình; Micro (44.1kHz) bắt âm thanh.
  • Tầng Đồng bộ (Sync Engine): Nắm giữ mốc thời gian hệ thống T_sys. Khử độ trễ phần cứng (Latency).
  • Tầng Lưu trữ: Xuất ra cấu trúc JSON/CSV phân cấp có quan hệ ánh xạ 1:1, sẵn sàng cho thuật toán Trích xuất.

Sơ đồ Luồng Dữ liệu (Data Pipeline)

SENSORS Tobii Tracker 90 Hz Màn hình / Web 60 FPS + Mouse Microphone 44.1 kHz SYNC ENGINE Master: T₀ Database JSON (Gaze) MP4 (Video) WAV (Audio)
II. CHUẨN HOÁ ĐỊNH DẠNG ĐẦU RA & CẤU TRÚC CƠ SỞ DỮ LIỆU
24/79
Loại dữ liệu Các tham số chính Định dạng lưu trữ
Hành vi mắt Điểm dừng (Fixations), Chuyển động đảo mắt (Saccades), Quỹ đạo (Gaze paths), Kích thước đồng tử CSV / JSON
(Chuỗi thời gian)
Tương tác vật lý Click stream, Mouse trajectory, Keyboard logs, Thời gian phản hồi Log events
(Rời rạc)
Ngữ cảnh & Kích thích Audio stimuli timestamps, Task status (Đúng/Sai), Trạng thái màn hình Structured metadata

Mô hình Lưu trữ Dữ liệu Hợp nhất

Để giải quyết sự không đồng nhất, dữ liệu được tổ chức thành cấu trúc cây phân cấp (JSON), đảm bảo mọi tín hiệu đều tham chiếu đến mốc thời gian tuyệt đối T₀.

1. Chuỗi Thời gian (Time-series): Tọa độ Mắt

E = { e₁, e₂, ..., eₙ } với eᵢ = (tᵢ, xᵢ, yᵢ)

2. Chuỗi Sự kiện (Event-driven): Chuột / Phím

V = { ε, P_cursor, Ω, tₑ }

(ε: Loại sự kiện, Ω: Nhãn ngữ nghĩa nút bấm)

3. Khoảng thời gian (Interval): Audio Metadata

A = [ t_onset, t_offset ]

Mô phỏng Cây Dữ liệu JSON (Data Tree)

Session_01 "T_0": 1698... "Gaze": [] { t_i: 16, x: 120, y: 340 } { t_i: 32, x: 122, y: 345 } ... "Mouse": [] { type: "click" } { target: "btn_1" } { t_e: 1250 } "Audio": [] { t_onset: 300 } { t_offset: 2400 } .
II. CƠ CHẾ XỬ LÝ & ĐỒNG BỘ HÓA SỰ KIỆN (EVENT SYNC)
22/79

Giải quyết Dữ liệu Bất đồng bộ

Các thiết bị hoạt động độc lập: Mắt gửi tọa độ liên tục (90Hz), Chuột chỉ gửi khi click (thưa thớt), Audio gửi theo bộ đệm. Luận án giải quyết bằng Cơ chế Hàng đợi và Đóng dấu thời gian (Timestamping).

  • Tiếp nhận (Queue): Mọi sự kiện khi sinh ra đều được đẩy ngay vào một Hàng đợi chung của hệ thống (Sync Engine).
  • Đóng dấu thời gian: Sync Engine như một "người gác cổng", nhìn vào Đồng hồ chủ (T₀) và đóng dấu thời gian tuyệt đối (tᵢ, tₑ) cho từng gói dữ liệu vừa đến.
  • Kết quả (Ánh xạ đồng nhất): Từ 3 luồng rời rạc, dữ liệu được xếp gọn gàng lên một trục thời gian duy nhất. AI có thể truy xuất chính xác trạng thái Mắt đang ở đâu ngay khi tiếng Audio vang lên.

Sơ đồ Hợp nhất Đa phương thức

Luồng Mắt (90Hz) Luồng Chuột (Click) Luồng Audio (Buffer) SYNC ENGINE Timestamp Master Clock KẾT QUẢ ĐỒNG BỘ T₀ Audio phát Click 1 trục thời gian duy nhất
II. TOÁN HỌC ĐỒNG BỘ: TẦN SỐ VÀ TỶ LỆ KHÔNG GIAN
23/79

1. Ánh xạ Tần số (Frequency Mapping)

Thiết bị Mắt lấy mẫu ở 90Hz (~11.1ms), trong khi Video hiển thị ở 60Hz (~16.67ms). Hệ thống sử dụng véc-tơ dữ liệu thời gian khung hình Vₜ = {t₁, t₂, ..., tₙ} để ánh xạ chính xác 1:1 tọa độ mắt eᵢ vào đúng khung hình chứa nó:

tₖ ≤ T_eye < tₖ₊₁

2. Bù trễ phần cứng & Tỷ lệ

Bù trừ độ trễ khởi tạo bộ mã hóa Video (δ) để căn chỉnh với trục T₀ [cite: 1004, 1005], đồng thời nhân hệ số Scale (S) để khớp tọa độ cảm biến vật lý với độ phân giải màn hình W × H [cite: 936, 937, 950]:

T_frame_0 = T_start + δ (X_screen, Y_screen) = (x_sensor × S, y_sensor × S)

Mô phỏng Khớp tần số (90Hz vs 60Hz)

Trục Thời gian Tuyệt đối (Absolute Time T₀) Video (60Hz) Frame t_k Frame t_k+1 Frame t_k+2 Mắt (90Hz) Xử lý Bất đồng bộ Tần số Vì 90Hz > 60Hz, 1 Frame Video có thể chứa từ 1 đến 2 điểm Mắt
II. THỰC NGHIỆM & QUY MÔ DỮ LIỆU THU ĐƯỢC
27/79

Thực nghiệm: Môi trường thực hiện

Hệ thống được mang trực tiếp đến các trung tâm giáo dục đặc biệt và trường học, đảm bảo trẻ được kiểm thử trong không gian quen thuộc, giảm thiểu áp lực tâm lý.

Thực nghiệm: Đối tượng tham gia

  • Nhóm Đối chứng: Trẻ phát triển điển hình (TD).
  • Nhóm ASD: Trẻ rối loạn phổ tự kỷ.
  • Nhóm Dyscalculia: Trẻ khó khăn về tính toán.

Sau quá trình thu thập thực tế, luận án đã xây dựng được một bộ dữ liệu lớn với các thông số nổi bật:

~2.43 GB

Tổng kích thước dữ liệu hợp nhất

1,230

Lượt trình bày nhiệm vụ kích thích

~2.7k

Điểm dừng (Fixations) trung bình/phiên

II. THÔNG TIN VỀ BỘ DỮ LIỆU CỦA TRẺ RLPTK
25/79
Đặc điểm Một phiên Toàn bộ bộ dữ liệu (660 phiên)
Thời lượng kích thích thị giác ~78 giây (1,3 phút) ~51.480 giây (~14,3 giờ)
Thời lượng phiên thực tế 20–30 phút ~1.375–1.925 giờ
Tần số lấy mẫu 90 Hz 90 Hz
Số dòng dữ liệu (điểm gaze) ~7.020 dòng ~4.633.200 dòng (~4,6 triệu)
Kích thước file ET.json ~500 KB ~330 MB
Kích thước file sync_data.csv ~700 KB ~462 MB
Tổng kích thước bộ dữ liệu ~1,2 MB ~792 MB
Số điểm dừng (fixations) trung bình ~200 fixations ~132.000 fixations
Số kích thích thị giác 12 ảnh 7.920 lượt trình chiếu
Ngưỡng dữ liệu hợp lệ ≥ 70% ≥ 70%
II. THÔNG TIN VỀ BỘ DỮ LIỆU CỦA TRẺ KHÓ TÍNH TOÁN
26/79
Đặc điểm Một phiên Toàn bộ bộ dữ liệu (82 phiên)
Thời lượng phiên 342 giây (~5,7 phút) ~28.000 giây (~7,8 giờ)
Tần số lấy mẫu trung bình 68,7 Hz 68,7 Hz
Số dòng dữ liệu (đồng bộ) 23.508 dòng ~1.930.000 dòng
Kích thước file ET.json ~600 KB ~49 MB
Kích thước file Mouse.json ~50 KB ~4 MB
Kích thước file âm thanh (.wav) ~1,3 MB (11,5 giây) ~107 MB
Kích thước file video màn hình (.avi) ~25 MB ~2,05 GB
Kích thước file CSV đồng bộ 2,67 MB ~219 MB
Tổng kích thước bộ dữ liệu ~29,6 MB ~2,43 GB
Số điểm dừng (fixations) trung bình 33 fixations ~2.700 fixations
Thời lượng audio trung bình 11,52 giây ~945 giây (~15,75 phút)
Độ phủ audio 3,1% 3,1%
Độ phủ dữ liệu chuột 0,1% Biến thiên (0,1–10%)
Số nhiệm vụ kích thích 15 tác vụ 1.230 lượt trình bày
III. TOÁN HỌC HÓA DẤU ẤN SINH HỌC (BIOMARKERS)
29/83

Chuyển hóa Tọa độ thành Nhận thức

Dữ liệu thô (tọa độ x, y theo thời gian) không mang ý nghĩa lâm sàng cho đến khi được ánh xạ vào Vùng quan tâm (AOI) và chuyển hóa thành 3 dấu ấn sinh học cốt lõi:

  • 1. Thời gian Khóa mục tiêu (TTFF): Tính từ lúc kích thích xuất hiện (t₀) đến khi điểm nhìn đầu tiên rơi vào AOI. Phản ánh tốc độ phản xạ và khả năng định hướng sự chú ý.
  • 2. Tổng thời lượng Chú ý (Dwell Time): Tổng thời gian mắt lưu lại bên trong AOI. Chỉ số này đại diện cho mức độ hứng thú hoặc sự tập trung xử lý thông tin.
  • 3. Số lần Dừng mắt (Fixation Count): Đếm số lượng cụm Fixation rớt vào AOI. Phản ánh chiến lược quét tìm kiếm (Quét liên tục hay Khóa chặt một chỗ).

Mô phỏng Quỹ đạo Sinh học (Eye-tracking Scanpath)

VÙNG QUAN TÂM (AOI) Bắt đầu (t0) 1. TTFF (Tốc độ) 3. Fixation Count = 3 2. Tổng Dwell Time (Σ thời gian nằm trong AOI)
II. ĐÓNG GÓP CỦA CHƯƠNG 2
28/79
1

Tính thực tiễn

Giải quyết rào cản về thiếu hụt dữ liệu chuẩn hóa trong nghiên cứu.

2

Tính kỹ thuật

Đề xuất kiến trúc đồng bộ Master Clock và Data Fusion cho thiết bị giá thành thấp.

3

Vai trò nền tảng

Tạo tiền đề để huấn luyện mô hình trích xuất đặc trưng và chẩn đoán (SVM, DBN) ở các chương tiếp theo.

III. BÀI TOÁN NGHIÊN CỨU 2
29/79
PHƯƠNG PHÁP TRÍCH XUẤT ĐẶC TRƯNG
THỊ GIÁC TỰ ĐỘNG
Định nghĩa bài toán nghiên cứu 2 (Chương 3)
30/79

Mô tả bài toán

  • Xác định vấn đề: Dữ liệu tọa độ ảnh nhìn thô thiếu tính định lượng. Việc gán nhãn Vùng quan tâm (AOI) thủ công trên khung hình động tốn kém thời gian và dễ sai lệch chủ quan.
  • Yêu cầu: Tự động hóa định vị AOI trên chuỗi khung hình động.
  • Mục tiêu: Chuyển đổi dữ liệu ảnh nhìn thô thành các chuỗi không gian - thời gian đồng bộ, phản ánh khách quan mức độ chú ý và tải nhận thức.

Minh họa bài toán AOI động

ẢNH TĨNH Vẽ 1 lần duy nhất VIDEO ĐỘNG (DI CHUYỂN THEO THỜI GIAN) Khung t Đã vẽ khớp Khung t+1 Phải vẽ lại Khung t+n Lại phải vẽ... Time NÚT THẮT CỔ CHAI VỀ NHÂN LỰC (BOTTLENECK) Nhiều đối tượng × 1800 khung hình = 1 phút Video ➡ Mất ~60 phút lao động thủ công cho mỗi phút dữ liệu.
III. NGHIÊN CỨU LIÊN QUAN
31/79
Thuật toán nhận dạng sự kiện
Thuật toán nhận dạng Cơ chế phân loại chính Phương pháp vận hành và trường hợp sử dụng
I-VT (Ngưỡng vận tốc) Vận tốc góc giữa các điểm Áp dụng ngưỡng vận tốc nghiêm ngặt; hiệu quả tính toán cao nhưng nhạy cảm với nhiễu cảm biến.
I-HMM (Mô hình Markov ẩn) Phân tích chuyển đổi trạng thái dựa trên xác suất Sử dụng mô hình thống kê hai trạng thái về phân bố vận tốc; có độ ổn định cao trong môi trường nhiễu.
I-DT (Ngưỡng phân tán) Sự phân bố điểm không gian theo thời gian Phân tích sự tán xạ hình học trong một cửa sổ thời gian di chuyển; rất tốt để xác định các điểm nhìn tập trung ổn định khi đọc.
I-MST (Cây bao trùm tối thiểu) Lý thuyết đồ thị và tỷ lệ độ dài cạnh Xây dựng cấu trúc cây và cắt các cạnh dài (chuyển động mắt nhanh) để cô lập các cụm điểm dày đặc (điểm nhìn cố định).
I-AOI (Khu vực quan tâm) Giao điểm không gian với các vùng được xác định trước Phân loại phụ thuộc vào ngữ cảnh; được sử dụng rộng rãi trong nghiên cứu UX để xác định xem các yếu tố giao diện người dùng cụ thể có được hiển thị hay không.
Tổng quan về các phương pháp thuật toán được sử dụng để phân tích các luồng tọa độ nhìn thô liên tục thành các sự kiện vận động mắt riêng biệt có thể phân tích được.
III. NGHIÊN CỨU LIÊN QUAN (AOI)
32/79
Thuật toán phát hiện AOI trên khung hình
Loại kích thích Phương pháp nhận dạng Khả năng tái tạo Mức độ lao động Đánh giá của chuyên gia
Tĩnh Vẽ tay Thấp Cao Tránh sử dụng phương pháp này để so sánh giữa các nghiên cứu khác nhau.
Tĩnh Voronoi / LRVT Cao Thấp Tiêu chuẩn vàng cho phân tích tĩnh khách quan.
Năng động Lập bản đồ ánh nhìn Cao Vừa phải Thích hợp nhất cho việc cuộn hoặc di chuyển trên bề mặt phẳng.
Năng động AutoAOI (Học sâu) Vừa phải Thấp Cần thiết cho việc phân tích video quy mô lớn.
Tương tác Dựa trên DOM Rất cao Rất thấp Lý tưởng cho nghiên cứu UX và tối ưu hóa công cụ tìm kiếm.
3D / VR Chiếu tia Cao Thấp Tiêu chuẩn tương tác; nhạy cảm với tiếng ồn.
3D / VR Đúc hình cầu Cao Thấp Thích hợp nhất cho môi trường 3D phức tạp.
Lâm sàng Căn chỉnh độ nổi bật Rất cao Thấp Khả năng chẩn đoán cao nhờ trí tuệ nhân tạo.
Tổng quan về các phương pháp nhận dạng AOI trên khung hình tĩnh và động.
III. PHƯƠNG PHÁP ĐỀ XUẤT
33/79

Tổng quan

Tích hợp thuật toán phát hiện điểm dừng PeyeMMV và mô hình phân đoạn zero-shot Segment Anything Model (SAM) kết hợp luồng quang học.

Giải pháp Đề xuất: PeyeMMV

  • Phát triển dựa trên họ thuật toán I-DT (Ngưỡng phân tán không gian).
  • Không dựa vào vận tốc mà dựa vào mật độ phân bố của tọa độ (x, y).
  • Kết quả: Thuật toán bền vững (robust) trước các nhiễu động tần số cao, khôi phục lại trọn vẹn ý nghĩa nhận thức của một điểm nhìn.

Giải pháp Đề xuất: SAM

Để vượt qua giới hạn của việc khoanh vùng thủ công, nghiên cứu ứng dụng Segment Anything Model (SAM) để tự động hóa gán nhãn AOI trong khung hình động.

III. THUẬT TOÁN PeyeMMV & LOGIC CỐT LÕI
34/79
Thuật toán PeyeMMV (tt)

Cơ chế Phân cụm Dữ liệu 3 Bước

Thuật toán không sử dụng vòng lặp logic (If/Else) đơn thuần, mà xử lý trực tiếp trên không gian hình học của tập điểm (x, y):

  • 1. Khởi tạo & Phân cụm: Gom các điểm dữ liệu thô liền kề có khoảng cách phân tán tối đa d < ε₁. Những điểm vượt ra ngoài bị coi là Saccade.
  • 2. Tinh chỉnh Trọng tâm: Loại bỏ các điểm nhiễu cục bộ (Outliers) có dung sai d > ε₂. Tính toán lại tọa độ Trọng tâm (Centroid) đại diện cho toàn bộ cụm.
  • 3. Ràng buộc Thời gian: Cụm không gian này chỉ được công nhận là một Fixation nếu tổng thời gian gom được lớn hơn ngưỡng nhận thức t_total > t_min (thường là 100ms).

Mô phỏng Quá trình Biến đổi Dữ liệu

1. TẠO CỤM (d < ε₁) Gom các điểm không gian gần 2. TINH CHỈNH (ε₂) Trọng tâm (Centroid) Loại bỏ nhiễu biên 3. ĐIỀU KIỆN THỜI GIAN t > 100ms FIXATION HỢP LỆ Luồng biến đổi dữ liệu của PeyeMMV
Logic cốt lõi PeyeMMV

Cơ chế Phân cụm Dữ liệu 3 Bước

Thuật toán không sử dụng ngưỡng vận tốc, mà xử lý trực tiếp trên không gian hình học của tập điểm (x, y):

  • 1. Khởi tạo & Phân cụm: Gom các điểm dữ liệu thô liền kề có khoảng cách phân tán tối đa d < ε₁. Những điểm vượt xa bị coi là bước nhảy Saccade.
  • 2. Tinh chỉnh Trọng tâm: Loại bỏ các điểm nhiễu cục bộ (Outliers) lân cận có dung sai d > ε₂. Tính toán lại tọa độ Trọng tâm (Centroid) đại diện cho toàn cụm.
  • 3. Ràng buộc Thời gian: Cụm không gian này chỉ được công nhận là một Fixation hợp lệ nếu tổng thời gian gom vượt qua ngưỡng nhận thức t_total > t_min (thường ≥ 100ms).

Mô phỏng Động: Biến đổi Dữ liệu của PeyeMMV

1. TẠO CỤM (d < ε₁) Gom điểm trong bán kính ε₁ 2. TINH CHỈNH (ε₂) Xóa nhiễu, chốt trọng tâm 3. ĐIỀU KIỆN THỜI GIAN t > 100ms FIXATION HỢP LỆ Tọa độ thô → Cụm không gian → Điểm dừng nhận thức
III. SAM ZERO-SHOT, PROMPT-AND-TRACK & SHRINK-TO-FIT
35/79
Mô hình SAM (Zero-shot)

Giải pháp Tự động hóa Gán nhãn

Để vượt qua giới hạn của việc khoanh vùng thủ công, nghiên cứu ứng dụng Segment Anything Model (SAM) - mô hình thị giác máy tính lõi từ Meta với hai đặc tính ưu việt:

  • Sức mạnh Zero-shot: Khả năng bóc tách, phân vùng chính xác bất kỳ đối tượng nào trong khung hình mà không cần phải thu thập dữ liệu và huấn luyện lại mô hình (No fine-tuning).
  • Mơ hồ Phân cấp (Hierarchical Ambiguity): Mô hình có tư duy không gian lồng ghép. Chỉ cần cung cấp duy nhất một tọa độ Điểm gợi ý (Point Prompt), hệ thống có thể hiểu và trích xuất ra nhiều cấp độ vật thể bao trùm lên nhau (Ví dụ: Từ Toàn bộ người -> Chiếc áo -> Nút áo).

Mô phỏng Cơ chế Mơ hồ Phân cấp của SAM

ĐẦU VÀO Point Prompt (Điểm nhìn của mắt) MÔ HÌNH SAM Level 1 Toàn bộ Người Level 2 Chiếc Áo Level 3 Nút Áo nhỏ
Cơ chế Prompt-and-Track

Giải quyết Bài toán Chuyển động

Khác với ảnh tĩnh, video yêu cầu mô hình AI phải tự động bám sát đối tượng qua hàng ngàn khung hình liên tiếp. Cơ chế Prompt-and-Track tự động hóa hoàn toàn việc này qua 3 bước:

  • 1. Khởi tạo (Prompt): Cung cấp hộp giới hạn ban đầu tại khung hình đầu tiên (t=0) để "dạy" mô hình nhận diện mục tiêu.
  • 2. Mở rộng (Expand): Tại khung hình tiếp theo (t+1), khi vật thể di chuyển, hệ thống tự động mở rộng hộp giới hạn cũ (thêm 10-20%) để tạo thành một "mạng lưới an toàn" bắt lấy chuyển động mới.
  • 3. Tinh chỉnh (Refine): Mô hình SAM nhận hộp đã mở rộng làm đầu vào mới, tự động phân tích và cắt gọt phông nền để xuất ra mặt nạ (Mask) ôm sát vật thể.

Mô phỏng Luồng Bám sát Vật thể (Tracking Pipeline)

1. KHỞI TẠO (t=0) Box Thủ công (User Prompt) 2. MỞ RỘNG (t+1) Box cũ bị lệch Expanded Box (Mạng lưới an toàn) 3. TINH CHỈNH (SAM) Shrink-to-fit Mask (Mặt nạ cắt gọt hoàn hảo)
Khắc phục mất dấu

Khắc Phục Rủi Ro Mất Dấu

Trong môi trường video thực tế, trẻ rung lắc đầu hoặc vật thể di chuyển nhanh sẽ khiến khung theo dõi bị lệch. Nếu khung này chỉ khớp khít với vật thể ở khung hình trước, nó sẽ dễ dàng làm mất dấu vật thể ở khung hình sau.

Quy trình Shrink-to-Fit (Co rút ôm sát)

  • Tạo mạng lưới an toàn: Hệ thống chủ động nới rộng hộp giới hạn cũ (Expanded Box) thêm 20% diện tích. Điều này đảm bảo vật thể dù dịch chuyển đột ngột vẫn nằm trọn bên trong hộp.
  • SAM Bóc tách & Co rút: SAM nhận chiếc "hộp rộng" này làm dữ liệu đầu vào. Nhờ khả năng hiểu ngữ cảnh hình ảnh, AI tự động quét gạt bỏ toàn bộ phông nền thừa, sau đó "co rút" mặt nạ lại (Shrink-to-fit) ôm sát hoàn hảo từng đường viền của vật thể.

Mô phỏng Quá trình Bóc tách Nền (Shrink-to-Fit)

HỘP MỞ RỘNG (An toàn) SAM Đang Loại bỏ Phông nền... MẶT NẠ ÔM SÁT (Shrink-to-Fit)
IV. PHƯƠNG PHÁP XÁC THỰC HIỆU NĂNG THUẬT TOÁN
37/79

Quy trình Đánh giá Đối chứng (Dual-Stream)

Để đảm bảo tính khách quan và khoa học, hệ thống AI đề xuất được đánh giá thông qua một kiến trúc hai luồng song song trên tập dữ liệu video đã được lấy mẫu phân tầng.

  • Luồng A (Tiêu chuẩn tham chiếu): Chuyên gia thực hiện gán nhãn thủ công qua phần mềm CVAT. Đòi hỏi bài kiểm tra độ tin cậy liên người chấm (IRR > 0.85) để tạo ra bộ nhãn Ground Truth chính xác nhất.
  • Luồng B (Hệ thống tự động): Chạy luồng khởi tạo SAM (Zero-shot) và lan truyền vết tự động qua các khung hình.
  • Đối chiếu chéo: Hai tập dữ liệu đầu ra được đưa vào module tính toán để đánh giá độ chính xác (IoU, Sai số) và hiệu suất.

Sơ đồ Khung Đánh giá (Evaluation Framework)

Tập Video Thô (Corpus) (S1, S2, S3) Lấy mẫu Phân tầng Luồng A: Gán nhãn Thủ công Chuyên gia thực hiện (CVAT) IRR > 0.85? SAI ĐÚNG Nhãn Ground Truth (Tiêu chuẩn Tham chiếu) Luồng B: Hệ thống Tự động Khởi tạo SAM (Zero-shot) Lan truyền Điểm gợi ý (Từ khung hình sang khung hình) Nhãn Dự đoán AI (Kết quả Hệ thống) Tính toán Chỉ số: IoU, Sai số Pixel, Hiệu suất Kết quả Đánh giá Thuật toán
IV. CÁC CHỈ SỐ ĐO LƯỜNG HIỆU NĂNG (METRICS)
38/79

Hệ thống Chấm điểm Đa chiều

Để khẳng định hệ thống AI có thể thay thế hoàn toàn con người trong việc phân vùng dữ liệu mắt, nghiên cứu sử dụng 3 thước đo:

1. Chỉ số Giao thoa (IoU - Intersection over Union)

Đánh giá mức độ chồng lấp không gian. IoU = (Diện tích Giao) / (Diện tích Hợp). IoU càng tiến gần đến 1, AI dự đoán càng sát với nhãn của chuyên gia.

2. Sai số Điểm ảnh (Pixel-level Error)

Đi sâu vào chi tiết vùng biên vật thể để tính toán tỷ lệ Phân loại sai (Gồm: Nhận diện thừa - False Positives, và Bỏ sót - False Negatives).

3. Hiệu suất Thời gian (Efficiency)

Bài toán tối ưu chi phí: So sánh trực tiếp tổng thời gian cần thiết để xử lý 1 phút video giữa lao động thủ công và hệ thống máy tính.

Mô phỏng Các Chỉ số Đánh giá (Dashboard)

1. IoU Score AI Human Giao 2. Pixel Error (Lỗi vùng biên) Thừa (FP) Bỏ sót (FN) 3. Tối ưu Hiệu suất Thời gian (Time Efficiency) Thủ công: ~60 Phút AI Tự động: ~3 Phút Giảm 95% thời gian xử lý
IV. KẾT QUẢ THỰC NGHIỆM ĐÁNH GIÁ MÔ HÌNH
39/79

Chất lượng Phân vùng (Độ chính xác)

Kết quả cho thấy hệ thống AI đạt độ trùng khớp gần như hoàn hảo so với chuyên gia con người:

  • Chỉ số IoU trung bình: Đạt mức 0.92 (92%). Thỏa mãn hoàn toàn tiêu chuẩn khắt khe để phân tích ánh nhìn.
  • Pixel Error: Tỷ lệ phân loại sai quanh vùng biên rất thấp, không gây ảnh hưởng đến quyết định "có nhìn vào vật thể hay không" của thuật toán PeyeMMV.
  • Độ bền vững: Mô hình duy trì IoU cao ngay cả khi vật thể thay đổi kích thước do góc máy quay.
0.92 Mean IoU Score

Hiệu suất & Đột phá Chi phí Thời gian

Giải quyết triệt để nút thắt cổ chai lớn nhất trong nghiên cứu Eye-tracking động:

  • Con người: Cần xấp xỉ 60 phút vẽ tay cho mỗi 1 phút dữ liệu video.
  • AI (SAM + Prompt): Hoàn thành quy trình tự động chỉ trong ~3 phút cho cùng khối lượng công việc.
  • Đột phá: Cắt giảm 95% thời gian và công sức gán nhãn, cho phép mở rộng quy mô nghiên cứu lâm sàng từ vài chục bệnh nhi lên hàng ngàn dữ liệu.
Gán nhãn Thủ công (~60 Phút) Hệ thống Đề xuất (~3 Phút) -95% TIME
III. LƯU ĐỒ TRÍCH XUẤT ĐẶC TRƯNG
36/79
Dữ liệu ET Trích xuất độc lập Ánh xạ không gian Đặc trưng cơ sở
III. THỰC NGHIỆM LÂM SÀNG
40/79
Khối chức năng trong Hệ thống Phân tích RLPTK Vai trò và Mục tiêu Triển khai Kỹ thuật
Bộ Dữ liệu Kích thích Đa dạng Xây dựng gồm 12 đối tượng sinh thái học (đồ chơi tương tác, con rối khuôn mặt, xe ô tô) nhằm khơi gợi đồng thời hành vi chú ý xã hội và vật lý.
Mô-đun Trực quan hóa Hành vi Khởi tạo các bản đồ nhiệt (Heatmaps) đa sắc và đường quét (Scanpaths) từ đặc trưng chuyển động mắt để tái hiện chiến lược quan sát.
Mô-đun Học máy (Phân loại Tự động) Ứng dụng bộ công cụ khai phá dữ liệu nạp trực tiếp vào mạng Support Vector Machine (SVM) nhằm tạo lập hàng rào kỹ thuật phân định giữa trẻ ASD và trẻ phát triển điển hình (TD).
Đặc điểm Thống kê So sánh Phản ứng của Nhóm Điển hình (TD) Phản ứng của Nhóm RLPTK (ASD) Ý nghĩa Lâm sàng Đằng sau Dữ liệu
Số lượng Điểm dừng (Fixation Count) Mật độ cao, quét diện rộng Tần suất thấp, thiếu tính lặp lại Khả năng khám phá thị giác ở trẻ ASD bị giới hạn
Thời lượng Duy trì (Duration) Kéo dài liên tục trên vùng chứa ngữ nghĩa Rời rạc, chu kỳ duy trì ngắn Cơ chế chú ý điều hành suy yếu
Thời gian Tới đích Đầu tiên (TTFF) Nhận diện nhanh kích thích xã hội Độ trễ lớn, chậm định hướng Bằng chứng định lượng về né tránh kích thích xã hội
IV. KẾT QUẢ PHÂN LOẠI VÀ CHẨN ĐOÁN LÂM SÀNG
41/79

Hiệu suất Phân loại của SVM

Mô hình Máy véc-tơ hỗ trợ (SVM) được đánh giá chéo (Cross-validation) trên không gian đặc trưng sinh học đa chiều để phân biệt trẻ mắc RLPTK và trẻ phát triển điển hình (TD).

  • Độ chính xác (Accuracy) - 91%: Tỷ lệ chẩn đoán đúng trên toàn bộ tập dữ liệu, khẳng định tính đúng đắn và độ tin cậy của thuật toán.
  • Độ nhạy (Sensitivity) - 87%: Khả năng nhận diện chính xác trẻ mắc tự kỷ (True Positive). Đây là chỉ số quan trọng nhất trong y tế nhằm hạn chế tối đa việc bỏ lọt bệnh nhân (False Negative).
  • Độ đặc hiệu (Specificity) - 97%: Khả năng loại trừ chính xác trẻ phát triển bình thường (True Negative), giúp hạn chế các báo động giả (False Positive) gây hoang mang cho phụ huynh.

Bảng điều khiển Hiệu suất Mô hình (Performance Dashboard)

91% ĐỘ CHÍNH XÁC 87% ĐỘ NHẠY 97% ĐỘ ĐẶC HIỆU MA TRẬN NHẦM LẪN (CONFUSION MATRIX) True Positive (TP) Nhận diện đúng (ASD) False Positive (FP) Báo động giả False Negative (FN) Bỏ lọt bệnh (Nguy hiểm) True Negative (TN) Loại trừ đúng (TD) ASD TD THỰC TẾ ASD TD AI DỰ ĐOÁN
V. GIẢI MÃ CHIẾN LƯỢC: PHÁT HIỆN HÀNH VI "ĐOÁN MÒ"
42/79

Vượt qua giới hạn của Bài Test truyền thống

Trong các bài kiểm tra trắc nghiệm, điểm số (đúng/sai) không phản ánh được quá trình tư duy (Cognitive Process). Trẻ có thể chọn đúng nhờ "đoán mò" ngẫu nhiên, hoặc chọn sai do tính toán nhầm một bước nhỏ dù đã rất nỗ lực.

Sự minh bạch hóa từ Eye-tracking:

  • Chiến lược Tính toán: Quỹ đạo mắt luân chuyển logic: đọc đề bài, dừng lâu ở con số/toán tử, đối chiếu tuần tự các đáp án rồi chốt mục tiêu.
  • Chiến lược Đoán mò: Ánh mắt lướt qua đề bài cực nhanh hoặc bỏ qua hoàn toàn; Scanpath hỗn loạn và rớt ngẫu nhiên xuống một đáp án.
  • Giá trị lâm sàng: Giúp nhận biết khi nào trẻ quá tải và bỏ cuộc để can thiệp kịp thời, thay vì chỉ nhìn kết quả sai.

Ảnh minh họa 1

Minh họa hành vi đoán mò 1

Ảnh minh họa 2

Minh họa hành vi đoán mò 2

Mô phỏng Playback Nhãn cầu

HỌC SINH A (TÍNH TOÁN) 15 + 8 = ? 21 23 25 Đọc đề cẩn thận → Chốt đáp án HỌC SINH B (ĐOÁN MÒ / BỎ CUỘC) 15 + 8 = ? 21 23 25 BỎ QUA ĐỀ BÀI Quét hỗn loạn → Chọn ngẫu nhiên
V. ĐẶC TRƯNG NHẬN THỨC: HÀNH VI "ĐẾM TUẦN TỰ" KÉM HIỆU QUẢ
43/79

Khiếm khuyết Khả năng Nhận diện Nhanh (Subitizing)

Subitizing là khả năng sinh học bẩm sinh giúp não bộ con người nhận diện ngay lập tức số lượng nhỏ (từ 1 đến 4 vật thể) mà không cần phải thực hiện phép đếm. Trẻ mắc chứng Khó tính toán thường bị khiếm khuyết cơ chế lõi này.

Bằng chứng từ Dữ liệu Ánh nhìn:

  • Trẻ Điển hình (TD): Sử dụng chiến lược Nhìn tổng thể; ánh mắt hội tụ ở vị trí trung tâm, tạo ra một điểm dừng lớn bao trùm toàn bộ nhóm vật thể.
  • Trẻ Dyscalculia: Bắt buộc kích hoạt chiến lược Đếm tuần tự; quỹ đạo mắt ghi nhận nhiều điểm Fixation nhỏ và các Saccade rời rạc.
  • Hệ lụy: Tốn kém tài nguyên nhận thức, tăng thời gian phản hồi và dễ dẫn đến sai sót khi số lượng tăng lên.

Cụm ảnh minh họa

Minh họa subitizing 1
Minh họa subitizing 2
Minh họa subitizing 3
Minh họa subitizing 4

Mô phỏng Quỹ đạo Ánh nhìn

HỌC SINH A (ĐIỂN HÌNH) Chiến lược: Nhìn Tổng thể (Subitizing) 1 Fixation Lớn Thời gian phản hồi (RT): Rất nhanh HỌC SINH B (DYSCALCULIA) Chiến lược: Đếm Tuần tự (Counting) 1 2 3 Thời gian phản hồi (RT): Rất chậm
V. MẤT PHƯƠNG HƯỚNG KHÔNG GIAN TOÁN HỌC (PHẦN 1)
44/79

Sự sụp đổ của "Trục số Tâm trí"

Khả năng ánh xạ con số vào một không gian tuyến tính là bản năng của não bộ. Ở trẻ Dyscalculia, trục tọa độ này bị méo mó, dẫn đến việc mất phương hướng toán học.

Nhiệm vụ: Tìm vị trí số "73" trên Trục (0 - 100)

  • Phiên bản 1: Trục trống chỉ có điểm đầu và cuối. Đánh giá khả năng ước lượng tỷ lệ; trẻ Dyscalculia quét mắt hỗn loạn vì không có điểm neo.
  • Phiên bản 2: Trục có neo 5 đơn vị. Trẻ TD nhảy mắt nhanh đến mốc 75 rồi lùi lại, trong khi trẻ Dyscalculia đếm nhẩm từng vạch từ 0.

Ảnh minh họa 1

Minh họa mất phương hướng trục số 1

Ảnh minh họa 2

Minh họa mất phương hướng trục số 2

Mô phỏng Quỹ đạo: Ước lượng Tỷ lệ & Dùng Neo

TÌM SỐ 73 V1: Trục trống (Chỉ 0 và 100) 0 100 TD: Ước lượng 1 lần Dys: Quét hỗn loạn V2: Trục neo (Vạch chia 5 đơn vị) 0 100 50 75 TD: Nhảy đến neo 75, lùi lại 73 Dys: Đếm từng vạch (5, 10, 15...)
V. MẤT PHƯƠNG HƯỚNG KHÔNG GIAN TOÁN HỌC (PHẦN 2)
45/79

Phiên bản 3: Thử thách Trí nhớ Làm việc (Working Memory)

Nhiều trẻ Dyscalculia có thể biểu diễn tính toán khi có đủ công cụ trực quan, nhưng lại gặp khó khăn nghiêm trọng trong việc lưu giữ thông tin toán học trong đầu để thao tác.

Cơ chế Kịch bản (V3):

  • T=0 đến 5s: Màn hình hiển thị trục số đầy đủ vạch chia. Yêu cầu trẻ tìm và nhìn vào số "42".
  • Sau 5s (Fade out): Mọi vạch chia và con số biến mất, trục số trở nên trống trơn. Yêu cầu trẻ tiếp tục nhìn vào vị trí số 42.
  • Phân tích Ánh nhìn: Trẻ TD duy trì được điểm dừng mắt ổn định (Neo tâm trí) nhờ trí nhớ làm việc tốt. Trẻ Dyscalculia lập tức "trôi dạt ánh nhìn" (Gaze drift) và mất phương hướng ngay khi điểm tựa thị giác biến mất.

Mô phỏng Động: Bài test Trí nhớ Không gian

00:03s 00:07s 0 100 50 Mục tiêu (42) GIAI ĐOẠN 1: Hiển thị đầy đủ thông tin GIAI ĐOẠN 2: Thử thách trí nhớ làm việc (Xóa vạch) TD: Duy trì Neo Tâm trí Dys: Trôi dạt ánh nhìn (Gaze Drift)
V. MINH HỌA LÂM SÀNG: BÀI TOÁN LỜI VĂN ĐA PHƯƠNG THỨC
46/79

Nghiên cứu trường hợp V: Sự mất kết nối Âm thanh - Hình ảnh

Bài kiểm tra thực tế sử dụng định dạng đa phương thức: Kết hợp văn bản, biểu tượng số và hỗ trợ đọc bằng âm thanh (biểu tượng chiếc loa). Mục tiêu là kiểm tra khả năng tích hợp thông tin của trẻ.

Nhiệm vụ & Phân tích:

  • Mục tiêu: Đồng bộ hướng dẫn bằng âm thanh ("Lan có 2 cái kẹo...") với quá trình phân tích văn bản và tìm kiếm bằng hình ảnh (các nút đáp án).
  • Ý nghĩa: Đối với trẻ Điển hình, âm thanh hỗ trợ quá trình giải quyết vấn đề. Tuy nhiên, với trẻ Khó tính toán (Dyscalculia), việc tiếp nhận thông tin đa phương thức cùng lúc thường gây hiệu ứng ngược.
  • Gánh nặng nhận thức: Việc đồng thời phải nghe, đọc và tính toán làm tăng gánh nặng lên trí nhớ làm việc. Ánh mắt quét hỗn loạn, mất khả năng trích xuất thông tin chính và thường dẫn đến việc từ bỏ.

Quỹ đạo Mắt trên Bài toán Đa phương thức

Bài toán lời văn TD: Đọc logic → Chốt đáp án 4 Dys: Quá tải Âm thanh → Quét rối loạn
III. ĐÓNG GÓP CỦA CHƯƠNG 3
47/79
1

Tính thực tiễn

Giải quyết vấn đề nâng cao hiệu quả về độ chính xác và thời gian thực hiện xác định các đối tượng quan tâm trong những khung hình động.

2

Tính kĩ thuật

Đề xuất phương pháp nhận diện sự kiện chuyển động mắt và phương pháp phát hiện vùng quan tâm, giúp ánh xạ điểm nhìn từ thông tin tọa độ thành các thông tin có ý nghĩa trên mỗi khung hình.

3

Vai trò nền tảng

Tạo cơ sở diễn giải thông tin thị giác, hỗ trợ điều chỉnh can thiệp trong các chương sau; đồng thời làm tiền đề cho việc khai thác dữ liệu eye-tracking trong các bài toán cá nhân hóa và hỗ trợ ra quyết định.

V. BÀI TOÁN NGHIÊN CỨU 3
48/79
PHƯƠNG PHÁP HỖ TRỢ CAN THIỆP
Định nghĩa bài toán nghiên cứu 3 (Chương 4)
49/79

Xác định vấn đề

Các phương pháp can thiệp hiện nay thường áp dụng theo mô hình chung, chưa đáp ứng được đặc điểm nhận thức riêng biệt của từng trẻ. Đồng thời, dữ liệu chuyển động mắt mới chỉ dùng để đánh giá kết quả sau cùng, chưa được tận dụng để điều phối tương tác học tập tức thời.

Yêu cầu

Cần tích hợp luồng dữ liệu thị giác khách quan vào hệ thống để tự động nhận diện khó khăn và cung cấp khuyến nghị điều chỉnh nội dung can thiệp kịp thời.

Mục tiêu

Nghiên cứu và phát triển các phương pháp ứng dụng eye-tracking nhằm phân tích hành vi và cá nhân hóa lộ trình can thiệp cho trẻ rối loạn phát triển.

NGHIÊN CỨU LIÊN QUAN
50/79

Hạn chế hiện nay

Các phương pháp can thiệp thường áp dụng mô hình chung, chưa thích ứng với đặc điểm nhận thức riêng biệt của từng trẻ.

Vấn đề kỹ thuật

Dữ liệu mắt hiện chủ yếu dùng để đánh giá kết quả sau cùng, thay vì tận dụng để điều phối tương tác tức thời hoặc đưa ra khuyến nghị cá nhân hóa.

Khoảng trống nghiên cứu

Thiếu hụt cơ chế ứng dụng đặc trưng chuyển động mắt để tối ưu hóa bài tập và lộ trình hỗ trợ dựa trên dữ liệu hành vi khách quan.

Minh họa sơ đồ chu trình can thiệp
Chu trình can thiệp truyền thống đối với trẻ RLPTK
V. PHƯƠNG PHÁP ĐỀ XUẤT
51/79

2 hướng tiếp cận riêng biệt

Thiết kế phương pháp can thiệp theo đặc điểm nhận thức của từng nhóm trẻ.

Với trẻ RLPTK

Áp dụng hệ thống luật (rule-based) tích hợp vào chu trình can thiệp 5 giai đoạn.

Với trẻ Khó học

Áp dụng Lý thuyết tải nhận thức, thiết kế kiến trúc Hai vòng lặp (truy vết ngược đồ thị) và sử dụng Mạng Bayes động (DBN).

PHƯƠNG PHÁP 1 - CHU TRÌNH CAN THIỆP CHO TRẺ RLPTK
52/79
Hệ thống tích hợp eye-tracking hỗ trợ can thiệp trẻ RLPTK

Cơ chế suy luận logic

IF (x > y) THEN
Trạng thái hành vi = Phân tán sự chú ý

Trong đó:

x: thời lượng điểm dừng trung bình trên các vùng nhiễu,

y: ngưỡng thời gian được xác định trước.

Minh họa quy trình/cơ chế

Placeholder minh họa quy trình
V. THỰC NGHIỆM
53/79
Tính năng của hệ thống Bối cảnh 1: PECS
Thiếu hụt chú ý xã hội
Bối cảnh 2: TEACCH
Sự tách rời nhận thức
Thông số đầu vào
Giai đoạn 1
Thời gian dừng mắt trên AOI đối tác (mặt và tay) so với AOI thẻ PECS. Tần suất và thời gian dừng mắt trung bình trên các AOI gây nhiễu ngoài không gian làm việc.
Cổng logic
Giai đoạn 2
NẾU (Thời gian nhìn Đối tác < Ngưỡng) (Nhìn ra ngoài > Ngưỡng) THÌ Phân loại = "Trao đổi Xã hội bị lỗi". NẾU (Thời gian nhìn Xao nhãng > Ngưỡng) HOẶC (Tập trung vào Task < Ngưỡng) THÌ Phân loại = "Rời bỏ Nhiệm vụ".
Đầu ra của hệ thống
Giai đoạn 3
Cảnh báo: Chưa có tham chiếu xã hội. Yêu cầu trẻ "Nhìn" trước khi hoàn tất trao đổi. Cảnh báo: Trôi dạt chú ý ([X] giây). Cần điều hướng bằng lời nói hoặc cử chỉ.
Ý nghĩa lâm sàng Tránh trao đổi thẻ máy móc; đảm bảo duy trì tương tác xã hội trong giao thức. Phân biệt khách quan giữa tạm dừng nhận thức và trôi dạt chú ý (hoặc cố ý không tuân thủ).
Thực nghiệm
54/79
Chiều dữ liệu Thông số Logic / Ngưỡng điều kiện Giải thích lâm sàng và khuyến nghị hệ thống
Sự chú ý tổng thể Tỉ lệ nhìn
(Màn hình so với ngoài màn hình)
Giảm xuống dưới ngưỡng (< θengage) Thiếu chú ý: Người dùng không còn duy trì chú ý thị giác vào không gian nhiệm vụ. Khuyến nghị: Cảnh báo chuyên gia trị liệu thực hiện tái tương tác thủ công và tạm dừng tiến trình bài học.
Ổn định hoặc tăng lên Chú ý duy trì: Phát hiện sự chú ý được cải thiện. Khuyến nghị: Đánh giá lại lịch trình khen thưởng; có thể tăng thời lượng nhiệm vụ hoặc tăng cường chất lượng.
Chiến lược xử lý Số lượng điểm dừng mắt so với thời lượng Số lượng cao + thời lượng thấp Quét quá mức (Bối rối): Cho thấy tình trạng quá tải nhận thức nghiêm trọng. Khuyến nghị: Chia nhỏ nhiệm vụ thành các bước nhỏ hơn; làm rõ các chỉ dẫn trực quan ngay lập tức.
Số lượng thấp + thời lượng cao Xử lý sâu: Cho thấy hiệu quả xử lý cao. Khuyến nghị: Chuyển sang bậc độ khó tiếp theo.
Chú ý chọn lọc Tỉ lệ mục tiêu so với vật gây nhiễu Tập trung vào Vật gây nhiễu θdistract Sự chọn lọc quá mức (Xao nhãng): Người dùng bị cuốn hút bởi các kích thích không thiết yếu. Khuyến nghị: Đơn giản hóa trường thị giác bằng các nguyên tắc TEACCH; tăng độ nổi bật của mục tiêu.
Tập trung mục tiêu > θdistract & vật gây nhiễu < θinhibit Ức chế thành công: Chỉ số xác nhận hiệu quả thực hiện nhiệm vụ và kiểm soát nhận thức. Khuyến nghị: Duy trì mức độ tương phản hình ảnh hiện tại.
Sự thành thạo Thời gian phản hồi so với độ chính xác Độ chính xác cao + thời gian phản hồi lâu Chính xác / Chưa thuần thục: Chính xác nhưng xử lý chậm, ngần ngại. Khuyến nghị: Tập trung vào sự trôi chảy và các bài tập lặp lại thay vì nâng cao các khái niệm mới.
Độ chính xác cao + thời gian phản hồi nhanh Làm chủ / Trôi chảy: Kỹ năng đã hoàn toàn tự động hóa. Khuyến nghị: Giới thiệu các nhiệm vụ tổng quát hóa trong các môi trường khác nhau.
VII. TRIỂN KHAI 1: KHUNG CAN THIỆP LÂM SÀNG TRẺ RLPTK (ASD)
55/79

Tổng quan Chương trình Can thiệp

Dựa trên nền tảng Hệ thống Gia sư Thông minh (ITS) và Dữ liệu ánh nhìn (Eye-tracking), nghiên cứu triển khai thực nghiệm lâm sàng nhằm tháo gỡ các rào cản nhận thức đặc thù của trẻ Rối loạn Phổ Tự kỷ.

Thông tin Thực nghiệm:

  • Đối tượng: N = 45 trẻ tự kỷ (3-6 tuổi), đã được chẩn đoán y tế.
  • Thời lượng: 12 tuần liên tục (3 phiên/tuần, 20 phút/phiên).
  • Thành phần tham gia: Trẻ em (Người dùng), Chuyên gia tâm lý/Giáo viên (Giám sát), Hệ thống ITS (Điều phối & Can thiệp tự động).

Chọn Trường hợp Can thiệp (Menu Cấp 3):

1. Cơ học mở khóa Xã hội (Social Unlocking)
2. Khắc phục Thiên vị Thị giác (Gaze Bias)
3. Đồng bộ Ánh nhìn & Hành động (Joint Attention)

Mô hình Tương tác Lâm sàng (Clinical Triad)

TRẺ EM Đối tượng Tương tác ITS & ET Hệ thống Can thiệp CHUYÊN GIA Giám sát & Điều chỉnh Phản hồi Real-time Hướng dẫn vật lý Báo cáo (Logs)
VII.1. TRƯỜNG HỢP 1: CƠ HỌC MỞ KHÓA XÃ HỘI
57/83

Chuyển hóa Sở thích Đặc biệt

Sử dụng xu hướng "siêu hệ thống hóa" (thích các quy luật vật lý, nút bấm) làm cầu nối để dẫn dắt ánh nhìn của trẻ vào các kích thích xã hội (khuôn mặt, biểu cảm).

Kết quả Đo lường:

  • Đầu vào (Baseline - Tuần 1): Tỷ lệ dừng mắt (Dwell Time) trên khuôn mặt chỉ đạt trung bình 15%. Phản ứng lảng tránh cao.
  • Giữa kỳ (Tuần 6): Hệ thống ITS thiết lập vòng lặp "Bấm nút → Hiện mặt cười". Ánh nhìn dần dịch chuyển theo luật nhân quả, đạt 42%.
  • Đầu ra (Post-test - Tuần 12): Tỷ lệ Dwell Time duy trì ổn định ở mức 68% ngay cả khi gỡ bỏ nút bấm cơ học. Trẻ hình thành được sự dung nạp với kích thích xã hội.

Đồ thị Tăng trưởng Dwell Time trên Khuôn mặt

80% 50% 20% Tuần 1 Tuần 3 Tuần 6 Tuần 9 Tuần 12 15% 42% 68% Vòng lặp Nhân quả
VII.2. TRƯỜNG HỢP 2: KHẮC PHỤC THIÊN VỊ THỊ GIÁC (GAZE BIAS)
58/83

Mở rộng Phạm vi Quét (Visual Field)

Trẻ ASD thường phát triển các "vùng an toàn thị giác" hẹp (ví dụ: chỉ nhìn nửa trái màn hình), bỏ qua các thông tin quan trọng nằm ngoài vùng này. Can thiệp nhằm phá vỡ thói quen này thông qua mồi nhử thị giác.

Kết quả Đo lường:

  • Tuần 1: Tỷ lệ bao phủ (Area Coverage) chỉ chiếm ~25% diện tích màn hình. Saccade ngắn, co cụm.
  • Can thiệp: ITS sử dụng thuật toán "Kéo giãn": Di chuyển các mục tiêu hấp dẫn (đốm sáng, đồ chơi ưa thích) nhích dần ra khỏi vùng an toàn 2-3 độ góc nhìn mỗi phiên.
  • Tuần 12: Biên độ Saccade tăng lên, vùng quét bao phủ >80% không gian học tập. Trẻ linh hoạt hơn trong việc định hướng chú ý.

Mô phỏng: Mở rộng Vùng Bao phủ (Area Coverage)

Baseline (25%) Tuần 12 (>80%)
VII.3. TRƯỜNG HỢP 3: ĐỒNG BỘ ÁNH NHÌN VÀ HÀNH ĐỘNG
59/83

Tái thiết lập "Chú ý chung" (Joint Attention)

Khắc phục hiện tượng giao tiếp "mù" (chỉ tương tác vật lý bằng tay nhưng ánh mắt không hướng về đối tượng). ITS thiết lập quy tắc: Hành động chỉ mang lại kết quả khi Ánh mắt đồng bộ.

Kết quả Đo lường:

  • Tần suất "Giao tiếp mù": Ở giai đoạn Baseline, 72% các thao tác yêu cầu/nhận đồ vật diễn ra mà không có giao tiếp mắt (Eye-contact).
  • Can thiệp: Hệ thống phần mềm chỉ mở khóa (Unlock) phần thưởng/hoạt ảnh khi thuật toán PeyeMMV xác nhận tia nhìn của trẻ đã chạm vào đúng Vùng quan tâm (Khuôn mặt giáo viên/Vật thể chung).
  • Hội tụ: Sau 12 tuần, tỷ lệ tương tác có chủ đích (có Gaze-sync) tăng mạnh lên 85%. Thời gian trễ (Latency) giữa hành động tay và tia nhìn rút ngắn đáng kể.

Tỷ lệ Tương tác Đồng bộ (Gaze-Sync)

100% 50% Tuần 1 Tuần 6 Tuần 12 28% 72% 60% 40% 85% 15% Gaze-Sync Lệch pha (Mù) Chất lượng Giao tiếp Tăng mạnh
VII. ĐÁNH GIÁ LÂM SÀNG: CƠ HỌC MỞ KHÓA XÃ HỘI (1/2)
56/79

Vượt Qua Kỳ Vọng Chuyên Gia

Trong can thiệp truyền thống, việc ép trẻ RLPTK nhìn vào khuôn mặt thường gây phản ứng lảng tránh. Chuyên gia dự đoán sự cải thiện sẽ rất chậm.

Tổng Dwell Time trên Khuôn mặt:

  • Baseline (Tuần 1): 15% thời lượng.
  • Dự đoán (12 tuần): Đạt mức 35-40%.
  • Hệ thống ITS đạt: Đạt mức 68%.
  • Kết luận: Mồi nhử cơ học đã giúp não bộ tiếp nhận khuôn mặt như một phần thưởng thay vì mối đe dọa.

Khoảng cách Hiệu quả (Efficacy Gap)

15% Baseline 40% Chuyên gia 68% ITS Thực tế Vượt +28%
VII. ĐÁNH GIÁ LÂM SÀNG: CƠ HỌC MỞ KHÓA XÃ HỘI (2/2)
57/79

Đồ thị Phân kỳ Kỹ năng

Biểu đồ theo dõi tiến độ qua 12 tuần cho thấy sự khác biệt về quỹ đạo tăng trưởng:

  • Đường xám (Chuyên gia): Dự đoán tăng trưởng tuyến tính, chậm rãi vì trẻ cần thời gian dài để "chịu đựng" với khuôn mặt.
  • Đường xanh (ITS): Tăng trưởng theo hàm mũ. Ở tuần thứ 4, khi não bộ trẻ liên kết thành công "Nút bấm = Phần thưởng", thời lượng chú ý bùng nổ và duy trì ổn định.
80% 0% W1 W4 W8 W12 Dự đoán Điểm bùng phát ITS Thực tế
VII. ĐÁNH GIÁ LÂM SÀNG: KHẮC PHỤC GAZE BIAS (2/2)
58/79

Phân bố Không gian (Fixation Scatter)

Mô phỏng bề mặt màn hình hiển thị trong quá trình làm bài test sau 12 tuần:

  • Cụm nét đứt (Dự đoán): Chuyên gia cho rằng trẻ chỉ nới rộng được vùng nhìn ra khu vực giữa (Center bias).
  • Cụm hồng (Thực tế): Các điểm dừng mắt phân tán đều đặn khắp 4 góc màn hình. Trẻ không còn bỏ sót thông tin, năng lực thu thập dữ liệu thị giác phục hồi toàn diện.
Vùng Cũ Dự đoán (Mắc kẹt ở giữa) THỰC TẾ: MỞ RỘNG TOÀN DIỆN
VII. ĐÁNH GIÁ LÂM SÀNG: ĐỒNG BỘ ÁNH NHÌN (1/2)
59/79

Xóa Bỏ "Giao Tiếp Mù"

Khắc phục hiện tượng giao tiếp "mù" bằng quy tắc phần mềm: Bấm chuột (tay) chỉ có tác dụng khi mắt đang nhìn đúng vào đối tượng.

Độ trễ Mắt - Tay (Latency):

  • Baseline: Độ trễ cực cao (Mắt nhìn đi chỗ khác khi tay đang thao tác).
  • Dự đoán: Giảm trễ 30-40% sau 3 tháng nhắc nhở thủ công.
  • Hệ thống ITS đạt: Giảm trễ tới 75%.
  • Kết luận: "Khóa phần mềm" buộc bộ não trẻ tự hiệu chỉnh hệ thần kinh vận động - thị giác cực kỳ hiệu quả.

Thời gian trễ Giữa Mắt và Tay (Đơn vị: ms)

Baseline 1200ms Dự đoán 750ms ITS Thực tế 300ms! Giảm -75%
Phương pháp 2 – Hỗ trợ Trẻ Khó Tính toán/Đọc
60/79

Tổng quan

Xây dựng Đồ thị Phụ thuộc Phân tích Nhiệm vụ (TAD): Một đồ thị có hướng không chu trình G_TAD = (V, E) biểu diễn phân cấp các kỹ năng.

Cơ chế suy luận logic

IF (x > y) THEN
Trạng thái hành vi = Phân tán sự chú ý

trong đó:

x: thời lượng điểm dừng trung bình trên các vùng nhiễu,

y: ngưỡng thời gian được xác định trước.

Minh họa tạm thời
Cấu trúc Hai Vòng lặp
61/79

Vòng lặp trong (Inner Loop)

Mục tiêu

Xử lý khó khăn ngắn hạn bằng cách giảm tải nhận thức ngoại lai.

Cơ chế

Tự động hạ cấp độ khó trình bày của câu hỏi khi trẻ sai: Từ loại Tự luận (A) -> Câu hỏi có cấu trúc (B) -> Dạng nhận diện kéo-thả (C) -> Dạng đơn giản Đúng/Sai (D).

Vòng lặp ngoài (Outer Loop)

Mục tiêu

Chẩn đoán và khắc phục thiếu hụt kỹ năng nền tảng (tải nội tại).

Cơ chế

Liên tục cập nhật mô hình Bayesian Knowledge Tracing (BKT) và kích hoạt "Truy vết ngược" (Backtracking) dọc theo đồ thị TAD để tìm ra nút kỹ năng gốc bị hỏng.

Thực nghiệm
62/79

Đánh giá trên 3 học sinh có nguy cơ khó đọc:
P1 (Phương pháp 2 vòng lặp), P2 (Hệ thống ITS thông thường), P3 (Học trên giấy truyền thống).

Kết quả điểm số:
P1 tăng vọt 95%, P2 tăng 54.7%, P3 chỉ tăng 26.3%.

Kết luận:
Sự kết hợp giữa giảm độ khó định dạng và truy vết nguyên nhân nền tảng mang lại hiệu quả cao nhất.

Minh họa biểu đồ tạm thời
Phương pháp 3 - Khung tính toán với mạng DBN
63/79

Động lực:

Việc chỉ dựa vào các trạng thái tức thời không phản ánh được sự biến đổi liên tục trong quá trình nhận thức.

Đề xuất:

Sử dụng Mạng Bayes Động (Dynamic Bayesian Network – DBN) để mô hình hóa và theo dõi xác suất phát triển kỹ năng theo trục thời gian thực.

Mô tả chi tiết:

Sử dụng đặc trưng hành vi tổng hợp (như độ chính xác và cả thời gian mất phản hồi) để cập nhật xác suất thành thạo tại mỗi nút trong mạng.

Hệ thống có khả năng phân loại bản chất của khó khăn:

Khuyết kiến thức: Trả lời sai -> Cung cấp lại bài tập nền tảng.

Thiếu độ trôi chảy: Trả lời đúng nhưng tốn quá nhiều thời gian (ví dụ 8.2s) -> Cung cấp bài luyện tập phản xạ nhanh.

Minh họa kiến trúc DBN tạm thời

Kiến trúc hệ thống (sẽ cập nhật hình thật)

V. KẾT QUẢ THỰC NGHIỆM HỆ THỐNG ITS
64/79

Sự cải thiện về khả năng nhận thức (EzMath / EzRead)

Thực nghiệm Single-Subject thiết kế riêng biệt kéo dài từ 4 - 8 tuần. Đánh giá đối chiếu giữa Nhóm A (Can thiệp Truyền thống) và Nhóm B (Sử dụng hệ thống Vòng lặp kép ITS).

Độ ổn định phản hồi

RTV = √( ∑(ti - μ)2 / N )

Nhóm B duy trì tốc độ bật đáp án trôi chảy, ổn định mức ~1200ms. Nhóm A biến thiên thất thường.

Hệ số chuyển giao

0.85

So với 0.35 của Nhóm A. Chứng tỏ khả năng ứng dụng logic vào bài mới nhờ lấp lỗ hổng trên đồ thị DAG.

Tăng trưởng điểm

+49 pts

Tất cả học sinh tăng vọt điểm chuẩn đầu ra (từ 8 đến 49 điểm) với thời gian ôn tập ít hơn 60%.

VI. TỔNG KẾT BỐN ĐÓNG GÓP KHOA HỌC
65/79

1. Hạ tầng dữ liệu

Thiết lập cơ sở dữ liệu đa phương thức (Mắt, Tương tác, Audio) đồng bộ thời gian thực cho trẻ RLPT đầu tiên tại Việt Nam.

2. Thuật toán trích xuất

Phát triển thuật toán PeyeMMV lọc nhiễu I-DT và ứng dụng SAM Zero-shot giải quyết nút thắt AOI động, giảm 96% thời gian xử lý.

3. Mô hình toán học

Số hóa giả thuyết trừu tượng thành công thức: Chỉ số $SQ_{visual}$, Tỷ lệ Đoán mò $R_{dwell}$, đồ thị DAG và mạng Bayesian (DBN).

4. Kiến trúc hệ thống

Xây dựng kiến trúc ITS Vòng lặp kép khép kín. Triển khai 3 hệ thống can thiệp thực tiễn (EzMath, EzRead, Monitor ASD).

Phương pháp hỗ trợ khác
66/79
PHƯƠNG PHÁP HỖ TRỢ KHÁC
Các phương pháp hỗ trợ khác (Chương 5)
67/79

Xác định vấn đề:

Các phương pháp truyền thống dựa trên học liệu giấy có tính cố định, khó điều chỉnh linh hoạt theo năng lực tiếp nhận thông tin của trẻ tại thời điểm tương tác.

Yêu cầu:

Tái kiến trúc các mô hình tương tác nhằm hiệu chỉnh động; tối giản hóa thao tác và kiểm soát tải nhận thức ngoại lai cho trẻ có rối loạn phát triển.

Mục tiêu:

Xây dựng hệ thống hỗ trợ đa nền tảng (Web và di động) tích hợp cơ chế cá nhân hóa trải nghiệm học tập dựa trên hồ sơ nhận thức riêng biệt của mỗi trẻ.

Thực nghiệm
71/79

Khảo sát chuyên gia (n=73): 91% đánh giá tích cực về thiết kế tổng thể.

Chỉ số đánh giá: Kiểm soát hiển thị (4.1–4.9/5); Hỗ trợ đa phương thức (4.6–4.8/5).

Luận điểm khẳng định: Kiểm soát tải nhận thức và tối giản thao tác vật lý tác động trực tiếp đến hiệu quả tương tác của trẻ.

Minh họa khảo sát tạm thời
Minh họa khảo sát tạm thời
Thực nghiệm
72/79
  • Kỹ năng Cộng: Tăng mạnh từ 3.6 lên 7.9; duy trì ổn định sau 6 tuần.
  • Kỹ năng Trừ: Đạt 7.9 (nhóm thực nghiệm) so với 7.1 (nhóm đối chứng) nhờ mô phỏng trực quan.
  • Kỹ năng So sánh: Tăng từ 4.9 lên 6.3; hỗ trợ tốt ghi nhớ dài hạn.
  • Kỹ năng Đếm: Ghi nhận cải thiện tích cực, củng cố năng lực số học nền tảng.
Minh họa thực nghiệm tạm thời
Minh họa thực nghiệm tạm thời
Minh họa thực nghiệm tạm thời
Thực nghiệm
76/79

Lượng hóa qua 12 mục tiêu (MT) chia thành 3 nhóm:

1. Đọc thành tiếng (MT1-MT5).

2. Khả năng đọc hiểu (MT6-MT8).

3. Thái độ và tham gia (MT9-MT12).

Kết quả Cải thiện Hành vi và Năng lực (EzRead)

Giảm mật độ ký tự giúp kiểm soát nhiễu loạn thị giác, giảm các biểu hiện căng thẳng sinh lý (nhíu mày, dụi mắt).

MT9 (Hăng hái) và MT11 (Theo dõi chú ý) cải thiện rõ rệt nhờ sự phối hợp đa phương thức và vòng lặp phản hồi vi mô.

VIII. TRIỂN KHAI 2: NỀN TẢNG HỌC TOÁN THÔNG MINH EZMATH
68/79

Hệ Sinh Thái Học Tập Thích Ứng

EzMath là hiện thực hóa của kiến trúc ITS Vòng lặp kép, được thiết kế đặc biệt cho học sinh tiểu học và trẻ Khó tính toán (Dyscalculia). Nền tảng tự động số hóa toàn bộ quá trình nhận thức của học sinh.

Các Trụ cột Công nghệ (Menu Cấp 3):

1. Phân rã và Khớp nối Kỹ năng (Skill Mapping)
2. Khung Hỗ trợ Đa phương thức (Scaffolding)

Kiến trúc Dữ liệu Nền tảng EzMath

EZMATH CORE ENGINE Click/Tương tác Can thiệp UI Giao bài mới
VIII.1. EZMATH: PHÂN RÃ VÀ KHỚP NỐI KỸ NĂNG (SKILL MAPPING)
69/79

Lý thuyết Không gian Kiến thức

Thay vì đánh giá chung chung "Học sinh học kém Toán", EzMath chia nhỏ môn Toán tiểu học thành một **Ma trận kỹ năng nguyên tử (Atomic Skills)**.

Lập bản đồ Năng lực (Knowledge Tracing):

  • Hệ thống thẻ (Tags): Mỗi bài tập trên EzMath được gắn tag kỹ năng cụ thể: Subitizing (Nhìn chớp nhoáng), Trục số, Phép cộng, Đếm tuần tự...
  • Radar Chart: Khi học sinh giải bài, AI liên tục cập nhật xác suất tinh thông (Mastery Probability) của từng kỹ năng.
  • Ý nghĩa: Giúp giáo viên nhìn thấu chính xác "lỗ hổng" cốt lõi. Ví dụ: Trẻ làm sai phép cộng không phải do không hiểu phép cộng, mà do hổng kỹ năng "Đếm tuần tự".

Biểu đồ Năng lực Học sinh (Radar Chart)

1. Subitizing 2. Đếm tuần tự 3. Phép Cộng 4. Phép Trừ 5. So sánh 6. Trục số Tháng 1 (Lỗ hổng lớn) Hiện tại (Đã lấp đầy)
VIII.2. EZMATH: HỖ TRỢ ĐA PHƯƠNG THỨC (SCAFFOLDING)
70/79

Cơ chế Nâng đỡ Nhận thức theo Cấp độ

Thay vì chỉ báo "Đúng/Sai", EzMath cung cấp hệ thống Scaffolding (Giàn giáo). Khi học sinh gặp khó khăn, hệ thống không giải hộ mà cung cấp các mức độ hỗ trợ (Hint) tăng dần, tùy theo áp lực nhận thức hiện tại đo được qua Eye-tracking.

Thang đo Cấp độ Hỗ trợ:

  • Cấp 1 (Audio): Đọc to lại đề bài hoặc gợi ý bằng âm thanh ("Con thử đếm lại xem").
  • Cấp 2 (Visual): Can thiệp giao diện thị giác. Làm mờ các chi tiết gây nhiễu, làm sáng (highlight) các con số hoặc vùng quan trọng.
  • Cấp 3 (Interactive): Hỗ trợ tương tác vật lý. Chia nhỏ bài toán, hiển thị các khối vật thể (Manipulatives) để trẻ dùng chuột kéo thả trực tiếp, biến trừu tượng thành trực quan.

Tháp Hỗ trợ Thích ứng (Adaptive Pyramid)

CẤP 1: AUDIO (Âm thanh) Ngập ngừng nhẹ (Đọc lại đề) CẤP 2: VISUAL (Thị giác) Quét mắt hỗn loạn (Làm mờ/Sáng) CẤP 3: TƯƠNG TÁC KÉO THẢ Mức độ Quá tải (Cognitive Load) Học sinh
V. TRIỂN KHAI 3: ỨNG DỤNG MOBILE EZREAD
73/79

Phá Vỡ Rào Cản "Toán Lời Văn"

Nhiều trẻ không làm được bài không phải do kém Toán, mà do gặp khó khăn trong việc đọc hiểu và trích xuất dữ kiện. EzRead là ứng dụng di động mang sức mạnh của hệ thống ITS ra khỏi phòng lab, hỗ trợ trẻ học tập mọi lúc mọi nơi bằng công nghệ Thị giác Máy tính (Computer Vision) và NLP.

Quy trình Công nghệ cốt lõi (Menu Cấp 3):

1. Số hóa OCR & Phân tích Ngữ nghĩa (NLP)
2. Khung Hỗ trợ Đa phương thức (Scaffolding)

Mô hình Hoạt động EzRead App

Sách Giáo Khoa (Chụp ảnh bài toán) Âm thanh (Voice) Highlight Dữ kiện Sync Dữ liệu Web
V.1. EZREAD: SỐ HÓA VÀ PHÂN TÍCH NGỮ NGHĨA (OCR + NLP)
74/79

Trích xuất Dữ kiện Thông minh

Để hệ thống có thể can thiệp, bài toán trên giấy phải được "hiểu" bởi máy tính. EzRead kết hợp Nhận dạng Ký tự Quang học (OCR) và Xử lý Ngôn ngữ Tự nhiên (NLP).

Quy trình Kỹ thuật:

  • Bước 1 (OCR): Chụp ảnh từ SGK hoặc vở bài tập. Mô hình Deep Learning chuyển đổi hình ảnh thành văn bản kỹ thuật số với độ chính xác >98%.
  • Bước 2 (NLP NER): Nhận diện thực thể có tên (Named Entity Recognition). AI quét qua văn bản để bóc tách 3 nhóm cốt lõi: Đại lượng (Con số), Toán tử ngầm (thêm, bớt, chia đều), và Chủ ngữ/Vật thể.
  • Tác dụng: Biến một khối văn bản dài vô hồn thành một "cây cấu trúc dữ liệu toán học" sẵn sàng cho việc hỗ trợ tương tác.

Quá trình Bóc tách Ngữ nghĩa (NLP Parsing)

"Lan có 5 quả táo, mẹ cho Lan thêm 3 quả táo. Hỏi Lan có tất cả bao nhiêu?" NLP Processing Lan, Mẹ Chủ thể 5, 3 (quả táo) Đại lượng (Value) Thêm (+) Toán tử ngầm
V.2. EZREAD: HỖ TRỢ ĐA PHƯƠNG THỨC (SCAFFOLDING)
75/79

Giảm Tải Nhận Thức Khi Đọc

Sau khi số hóa, EzRead cung cấp các "giàn giáo" (Scaffolds) tùy chỉnh để dẫn dắt sự chú ý của trẻ, giúp bộ não không bị quá tải khi xử lý văn bản dài.

Các Cấp độ Can thiệp:

  • L1 - Text-to-Speech (TTS): Đọc to đề bài với ngữ điệu tự nhiên, khắc phục hoàn toàn chứng Khó đọc (Dyslexia).
  • L2 - Bimodal Reading (Đồng bộ Âm-Hình): Chữ đổi màu (Highlight) khớp chính xác với tốc độ âm thanh đang phát, giúp mắt không bị trôi dạt.
  • L3 - Trực quan hóa Dữ kiện: Tự động tô đậm các con số (Đỏ) và từ khóa toán học (Xanh lá). Tách các câu ghép dài thành các dòng đơn ngắn gọn.

Mô phỏng: Bimodal Reading & Highlighting

Bài Tập Toán Lan có 5 quả táo. Mẹ cho thêm 3 quả. Hỏi có tất cả bao nhiêu? GIẢI BÀI
VI. TỔNG KẾT BỐN ĐÓNG GÓP KHOA HỌC
77/79

1. Hạ tầng Dữ liệu

Thiết lập cơ sở dữ liệu đa phương thức (Mắt, Tương tác, Audio) đồng bộ thời gian thực cho trẻ RLPT đầu tiên tại Việt Nam.

2. Thuật toán Trích xuất

Phát triển thuật toán PeyeMMV lọc nhiễu I-DT và ứng dụng SAM Zero-shot giải quyết nút thắt AOI động, giảm 96% thời gian xử lý.

3. Mô hình Toán học

Số hóa giả thuyết trừu tượng thành công thức: Chỉ số $SQ_{visual}$, Tỷ lệ Đoán mò $R_{dwell}$, đồ thị DAG và mạng Bayesian (DBN).

4. Kiến trúc Hệ thống

Xây dựng kiến trúc ITS Vòng lặp kép khép kín. Triển khai 3 hệ thống can thiệp thực tiễn (EzMath, EzRead, Monitor ASD).

VI. HẠN CHẾ VÀ ĐỊNH HƯỚNG PHÁT TRIỂN
78/79

Hạn chế còn tồn tại

  • Quy mô dữ liệu: Cỡ mẫu huấn luyện Học máy còn khiêm tốn, mất cân bằng giới tính do đặc thù dịch tễ học của hội chứng tự kỉ.
  • Rào cản thiết bị: Hệ thống phụ thuộc vào phần cứng thu tín hiệu hồng ngoại chuyên dụng (Tobii) đắt tiền, cản trở triển khai đại trà trường công.
  • Khung thời gian: Các phân tích lâm sàng mới dừng ở mức trung hạn (1-3 tháng), cần nghiên cứu dọc (longitudinal) để đánh giá độ bền thần kinh.

Hướng phát triển tương lai

  • Phổ cập hóa AI: Huấn luyện các mạng Deep Learning siêu nhẹ (Lightweight Gaze Estimation) để theo dõi ánh nhìn qua Webcam phổ thông.
  • Tích hợp GenAI (LLMs): Dùng AI tạo sinh tự động tạo hình vẽ, đoạn văn dựa trên trạng thái lỗi thời gian thực $Z_{ij}$ của học sinh.
  • Mở rộng Sensor: Kết hợp thêm dữ liệu Điện não đồ (EEG) để khẳng định mức độ vỏ não của Giả thuyết Mắt-Tâm.
KẾT THÚC BÁO CÁO
79/79

Danh mục Công trình Khoa học

  • [1] Bài báo SCIE/Q1: Disability and Rehabilitation: Assistive Technology (2025).
  • [2] Tạp chí khoa học tự nhiên (2025).
  • [3] Hội nghị Quốc tế SOICT 2025 (2 bài).
  • [4] Hội nghị Quốc tế KSE 2025.
  • [5] Đơn xin cấp bằng Sáng chế: "Phương pháp và hệ thống cung cấp thông tin về sự chú ý thị giác" (Đã nộp).
  • XIN TRÂN TRỌNG CẢM ƠN HỘI ĐỒNG!

    Q&A