NGHIÊN CỨU VÀ PHÁT TRIỂN GIẢI PHÁP
THEO DÕI CHUYỂN ĐỘNG MẮT
HỖ TRỢ TRẺ RỐI LOẠN PHÁT TRIỂN

Nghiên cứu sinh: Nguyễn Thị Quỳnh Hoa

Người hướng dẫn: PGS.TS. Lê Thanh Hà & TS. Ngô Thị Duyên

Chuyên ngành: Khoa học máy tính

Mã số: 9480101

I. NỘI DUNG BÁO CÁO

2/79

I

Mở đầu

Đặt vấn đề & Thực trạng
Hạn chế phương pháp cũ
Mục tiêu & Phạm vi

II

Xây dựng bộ dữ liệu đa phương thức

Kiến trúc thu thập đồng bộ
Kịch bản kích thích ASD
Kịch bản Dyscalculia

III

Trích xuất đặc trưng thị giác

Thuật toán PeyeMMV
Mô hình SAM Zero-shot
Định lượng dấu ấn (SQ)

IV

Hỗ trợ can thiệp cá nhân hoá

Giả thuyết Mắt - Tâm
Phân loại SVM (ASD)
Mạng Bayesian Động (DBN)

V

Hỗ trợ đa nền tảng

Nền tảng di động
Nền tảng web

VI

Kết luận & Đóng góp

Tổng kết đóng góp khoa học
Hạn chế & Hướng tương lai
Công trình công bố

I. PHÁT BIỂU BÀI TOÁN

3/79

Bối cảnh

Khai phá dữ liệu hành vi: Mô hình hóa nhận thức là bài toán có độ phức tạp cao.
Thách thức gia tăng: Trẻ rối loạn phát triển gặp rào cản ngôn ngữ, vận động và độ nhiễu dữ liệu lớn.
Dữ liệu chuyển động mắt: Nguồn tín hiệu vi mô liên tục, khách quan và giàu hàm lượng thông tin nhận thức.

Lượng hóa cơ chế nhận thức

Theo dõi chuyển động mắt (Eye-tracking) khắc phục rào cản quan sát chủ quan nhờ khả năng định lượng trực tiếp các cơ chế nhận thức vi mô thông qua các chỉ số cốt lõi:

Điểm dừng mắt (Fixation): Xảy ra khi mắt khóa vào một vị trí (100-300ms). Đây là lúc não bộ thực sự trích xuất và xử lý thông tin. Thời gian dừng càng lâu chứng tỏ tải trọng nhận thức càng lớn.
Bước nhảy mắt (Saccade): Tốc độ chuyển động cực nhanh giữa các điểm dừng. Trong lúc nhảy, thị giác bị ức chế. Nó phản ánh rõ nét chiến lược tìm kiếm của não bộ.
Chỉ số Entropy: Đo lường sự hỗn loạn của quỹ đạo nhìn. Entropy thấp nghĩa là trẻ dự đoán được quy luật; Entropy cao phản ánh sự mất phương hướng, bối rối và sinh ra Lỗi dự đoán lớn.

Giải phẫu Hành vi Thị giác & Dữ liệu Tính toán

I. RỐI LOẠN PHÁT TRIỂN

4/79

Thực trạng & Thách thức Toàn cầu

Rối loạn phát triển: là nhóm hội chứng xuất hiện sớm trong quá trình trưởng thành, gây suy giảm khả năng tương tác xã hội và hạn chế năng lực tiếp thu kiến thức của trẻ. Nhóm này bao gồm các tình trạng phổ biến như rối loạn phổ tự kỷ, chứng khó đọc và chứng khó tính toán.
Hậu quả dai dẳng: Suy giảm nghiêm trọng hiệu quả học tập, tạo rào cản hòa nhập xã hội và làm tăng nguy cơ mắc các vấn đề sức khỏe tâm thần (lo âu, trầm cảm).

Tự kỉ (ASD)

1/36

trẻ em

Khó đọc

7-20%

học sinh

Khó tính toán

3-7%

học sinh

Đặc trưng thị giác của trẻ RLPT

Trẻ có rối loạn phổ tự kỉ: Ưu tiên quan sát các hình khối và giảm sự tập trung vào khuôn mặt người.
Trẻ khó tính toán: Sự thiếu tập trung vào vị trí mục tiêu và mất nhiều thời gian hơn để nhận diện các ký hiệu số học.
Trẻ khó đọc: Có xu hướng dừng mắt lâu hơn và thường xuyên nhìn ngược lại các phần nội dung văn bản đã qua.

I. HẠN CHẾ CỦA GIẢI PHÁP HIỆN TẠI

5/79

Khoảng trống liên ngành

Thiếu hụt một khung hiểu biết hệ thống về bản chất của dữ liệu liên ngành, dẫn đến tính ứng dụng thực tế còn hạn chế.

Nguyên nhân không nằm ở phần cứng mà ở sự thiếu hụt khung lý thuyết đồng bộ.

Nhu cầu về tính diễn giải

Các nghiên cứu hiện tại thường ứng dụng mô hình học máy thiếu tính diễn giải.

Trong bối cảnh lâm sàng, khả năng giải thích là yêu cầu tiên quyết để đảm bảo độ tin cậy trong chẩn đoán và can thiệp cho trẻ.

⇒ Động lực của hệ thống hoá tài liệu

Sự cần thiết: Chuyển hóa các biểu hiện lâm sàng phức tạp thành các bài toán thành phần có thể giải quyết bằng tính toán. Do vậy, hệ thống hóa tài liệu đóng vai trò xác định các hướng nghiên cứu trọng tâm thay vì chỉ tổng hợp đơn thuần.

Mục tiêu: Tạo ra nền tảng lý thuyết vững chắc cho các thuật toán đề xuất ở giai đoạn sau của luận án.

I. KẾT QUẢ HỆ THỐNG HOÁ CÁC NGHIÊN CỨU & HẠN CHẾ VỀ DỮ LIỆU

6/79

4 hướng nghiên cứu chính

Phân tích đặc trưng

Trích xuất và định lượng các mẫu hành vi thị giác vi mô.

Chẩn đoán

Sử dụng dữ liệu thị giác để nhận diện sớm các dấu hiệu.

Can thiệp

Điều hướng sự chú ý & tối ưu hóa giao diện tương tác.

Đánh giá

Đo lường sự thay đổi nhận thức theo chuỗi thời gian.

Quy trình thực hiện (Kitchenham & Charters):

Xác định: Truy vấn đa nguồn (PubMed, Google Scholar, Scopus, WoS, ACM).

Sàng lọc: Kiểm tra tiêu đề, tóm tắt theo tiêu chí mức độ liên quan.

Đánh giá: Phân tích toàn văn, loại bỏ trùng lặp và công trình không phù hợp.

Phạm vi và Phân loại:

Cơ sở dữ liệu: 170 (RLPTK) + 169 (Khó tính toán) + Tham chiếu (Khó đọc).

Ba hướng tiếp cận: (1) Phân tích đặc trưng, (2) Chẩn đoán, (3) Can thiệp và Đánh giá.

Vai trò của bộ dữ liệu

Yếu tố quyết định hiệu quả

Quá trình hệ thống hóa chỉ ra rằng tập dữ liệu (Data sets) chính là rào cản cốt lõi quyết định hiệu quả của các mô hình.

Năng lực của thuật toán chịu sự giới hạn trực tiếp từ chất lượng và tính chuẩn hóa của dữ liệu chuỗi thời gian đầu vào.

Hạn chế thực thi dữ liệu

Về thu thập: Phương pháp kiểm thử trực tiếp tạo ra tập dữ liệu nhỏ, nhiều nhiễu, hạn chế khả năng tổng quát hóa.

Về xử lý: Gán nhãn thủ công dữ liệu động (video) tốn nguồn lực khổng lồ, gây thiếu hụt dữ liệu huấn luyện.

I. PHÁT BIỂU BÀI TOÁN, MỤC TIÊU VÀ PHẠM VI NGHIÊN CỨU

7/79

1. Dữ liệu về trẻ RLPT

Lệch pha (Desync): Mắt (liên tục), Chuột (rời rạc) và Âm thanh hoạt động trên các xung nhịp khác nhau. Nếu không căn chỉnh cùng trục thời gian (T₀), không thể phân tích quan hệ Nghe-Nhìn.

Nhiễu: Dữ liệu y sinh ở trẻ có độ nhiễu cao do rung lắc đầu.

2. Phân tích đặc trưng trong khung hình động

Kích thích video có nhiều đối tượng di chuyển, biến dạng liên tục. Việc vẽ đa giác khoanh Vùng quan tâm (AOI) thủ công cho từng khung hình là nút thắt cổ chai về hiệu suất.

3. Phương pháp hỗ trợ chưa hiệu quả

Thiếu vắng các mô hình Toán học/Xác suất để chuyển đổi dữ liệu tọa độ (x,y) thành "chiến lược nhận thức" (ngữ nghĩa). Khoảng trống trong việc xây dựng hệ thống thích ứng.

Mục tiêu Nghiên cứu

1. Dữ liệu: Xây dựng bộ dữ liệu đa phương thức chuẩn hóa, độ phân giải cao cho trẻ RLPT.
2. Trích xuất: Tự động hóa quy trình trích xuất đặc trưng thị giác bằng các Mô hình Nền tảng (Foundation Models) nhằm loại bỏ nút thắt gán nhãn thủ công.
3. Mô hình: Xây dựng các thuật toán xác suất và đồ thị phụ thuộc để lượng hóa chiến lược nhận thức.
4. Hệ thống: Thiết kế và kiểm chứng thực nghiệm 3 phần mềm giáo dục can thiệp cá nhân hóa (End-to-end).

II. BÀI TOÁN NGHIÊN CỨU 1

8/79

PHƯƠNG PHÁP XÂY DỰNG BỘ DỮ LIỆU
ĐA PHƯƠNG THỨC

Định nghĩa bài toán nghiên cứu 1 (chương 2)

9/79

Sự lệch pha Đa phương thức

Mô hình Căn chỉnh Thời gian (Time-Alignment)

Yêu cầu

Tính đồng bộ (Synchronization): Khớp nối chuỗi thời gian giữa ảnh nhìn, âm thanh và tương tác.
Tính đặc trưng: Dữ liệu phản ánh đặc điểm riêng biệt của từng nhóm trẻ RLPT.
Chuẩn đầu ra: Xác định các thông số như Fixations, Saccades từ nhiều nguồn thiết bị.

Mục tiêu trọng tâm

Chuyển hóa nhu cầu lâm sàng thành bài toán kỹ thuật hợp nhất dữ liệu (Data Fusion).

II. CÁC NGHIÊN CỨU LIÊN QUAN

10/79

Bộ dữ liệu / Mô hình nghiên cứu	Đối tượng mục tiêu chính	Mô hình phần cứng / thiết bị theo dõi mắt	Tần số lấy mẫu	Thiết lập / Môi trường thí nghiệm
Tập dữ liệu CopCo 23	Chứng khó đọc / Người lớn (ngôn ngữ thứ hai)	EyeLink 1000 Plus	1000 Hz	Phòng thí nghiệm độ chính xác cao
ETDD70 23	Chứng khó đọc (9–10 tuổi)	Điều khiển từ xa SMI RED	250 Hz	Phòng thí nghiệm được kiểm soát
Dự án DIDUNAS	Nguy cơ mắc chứng khó tính toán (lớp 1)	Tobii Pro X3-120 (Thông thường)	120 Hz	Trường học / Môi trường được kiểm soát
Saliency4ASD 3	Trẻ em mắc chứng tự kỷ và trẻ em phát triển bình thường	Điện thoại di động SMI RED	60 Hz	Phòng thí nghiệm, màn hình 17 inch, khoảng cách 60 cm
Bộ dữ liệu Serbia 15	Chứng khó đọc (7–13 tuổi)	Bộ theo dõi hai chế độ không xác định	30 Hz & 60 Hz	Cấu hình màu được kiểm soát
Sàng lọc máy tính bảng 16	Chứng khó đọc (8–13 tuổi)	Galaxy Tab S5e (VisualCamp SeeSo)	~30 Hz	Môi trường sinh thái / Trường học
Đọc WebGazer 33	Rối loạn thần kinh khác biệt (ADHD, ASD)	Webcam tiêu chuẩn (WebGazer SDK)	~30 Hz	Giáo dục từ xa / trực tuyến

II. PHƯƠNG PHÁP ĐỀ XUẤT & THIẾT KẾ KỊCH BẢN KÍCH THÍCH

11/79

Quy trình xây dựng bộ dữ liệu đa phương thức được thực hiện qua 4 bước:

1

Thiết kế kịch bản

Tích hợp kích thích thị giác & tương tác

2

Triển khai hệ thống

Thiết lập phần cứng & kiến trúc luồng

3

Đồng bộ & Hợp nhất

Kỹ thuật Master Clock & Data Fusion

4

Bộ dữ liệu

Lưu trữ và chuẩn hóa đầu ra

Sơ đồ: Quy trình 4 bước xây dựng bộ dữ liệu.

Do sự khác biệt về biểu hiện lâm sàng, kịch bản được chia làm 2 nhánh chuyên biệt:

Nhóm trẻ tự kỷ (ASD)

Tập trung vào yếu tố bất ngờ và động
Mục tiêu đo lường: Bộ từ trong ....

Nhóm trẻ khó tính toán

Tích hợp các bài toán từ đơn giản đến phức tạp.
Yêu cầu đo lường nhiều kênh giác quan

II. KỊCH BẢN 1: BÀI TOÁN NHÂN QUẢ & SIÊU HỆ THỐNG HÓA

12/79

Thuyết Siêu hệ thống hóa (Hyper-Systemizing)

Não bộ trẻ RLPTK được ví như những cỗ máy "siêu hệ thống hóa", luôn tìm kiếm các quy luật: Đầu vào → Quy tắc → Đầu ra.

Thiết kế Kịch bản Lâm sàng: Đồ chơi "Gấu & Nút"

Tạo ra một Xung đột thị giác trên cùng một màn hình.
Tác nhân Cơ học: Nút bấm vật lý, tất định, hoàn hảo, có thể giải mã 100%.
Tác nhân Xã hội: Khuôn mặt gấu phát sáng, cảm xúc, ngẫu nhiên, phi logic.
Đo lường: Eye-tracking xác định hệ thống nào được trẻ ưu tiên "khóa" ánh nhìn.

Minh họa kịch bản kích thích

Mô phỏng Bộ lọc Nhận thức & Xung đột

II. KỊCH BẢN 2: LỖI DỰ ĐOÁN & SỰ QUÁ TẢI (HIPPE)

13/79

Mã hóa Dự đoán & Thuyết HIPPE

Não bộ liên tục dự đoán tương lai. Lỗi dự đoán xảy ra khi thực tế khác với kỳ vọng. Thuyết HIPPE (High Inflexible Precision of Prediction Errors) cho rằng não bộ RLPTK gán trọng số cực cao cho mọi sai lệch, dù là nhỏ nhất.

Kích thích Thực nghiệm: Jack-in-the-Box

Giai đoạn Tĩnh: Tay quay hộp nhạc xoay đều đặn (Dễ dự đoán, Entropy thấp). Trẻ thiết lập mô hình an toàn.
Đột biến (Surprise): Chú hề 3D bật nắp. Sự kiện này phá vỡ mô hình an toàn, tạo ra một Lỗi dự đoán (Prediction Error).
Hệ quả: Nhóm TD hấp thụ sự bất ngờ thành niềm vui khám phá. Nhóm ASD bị hệ thống HIPPE khuếch đại lỗi, dẫn đến Quá tải nhận thức và sụp đổ hệ thống xử lý.

Mô phỏng Cơ chế Quá tải Nhận thức

II. ĐÁP TRẢ LÂM SÀNG: SỰ ÁC CẢM & LẢNG TRÁNH ÁNH NHÌN

14/79

Học tập Tích cực (Nhóm TD)

Não bộ điển hình xử lý "sự bất ngờ" (chú hề bật ra) như một tín hiệu học tập tích cực. Nó kích hoạt hệ thống Dopamine, tạo ra sự tò mò và thu hút ánh nhìn (Fixation) trực tiếp vào khuôn mặt 3D để khám phá.

Lảng tránh để Tự xoa dịu (Nhóm ASD)

Với hệ thống HIPPE, sự bất ngờ trở thành một Lỗi khổng lồ gây lo âu tột độ. Cơ chế phòng vệ được kích hoạt:

Trẻ thực hiện một bước nhảy mắt cực nhanh (Saccade) lảng tránh khỏi khuôn mặt động.
Ánh nhìn "khóa" chặt vào họa tiết 2D tĩnh bên hông hộp, vùng an toàn và dễ dự đoán.
Hệ quả: Đây là nỗ lực điều chỉnh cân bằng nội môi để giảm tải nhận thức, không phải do trẻ thiếu khả năng nhìn nhận khuôn mặt.

Minh họa đáp trả lâm sàng

Mô phỏng Phân ly Quỹ đạo Ánh nhìn

KỊCH BẢN DYSCALCULIA 1: TIỀN ĐỀ NHẬN THỨC KHÔNG GIAN

15/79

1. Hình Nền Thị Giác (Figure-Ground)

Đánh giá khả năng bóc tách thông tin quan trọng (số, hình học) ra khỏi các nhiễu nền xung quanh. Đây là tiền đề quan trọng giúp trẻ không bị nhìn nhảy dòng hay nhầm lẫn các con số khi đặt tính.

2. Ký Hiệu Mũi Tên (Direction)

Kiểm tra năng lực định hướng không gian (Trái/Phải, Lên/Xuống). Sự nhạy bén với hướng của mũi tên là cơ sở để trẻ hiểu về sự tăng/giảm trên trục số và các phép tính có hướng.

3. Tương Quan Vị Trí (Spatial)

Đánh giá khả năng phân biệt vị trí tương đối giữa các vật thể (Ví dụ: Hình tròn nằm bên trong hay bên ngoài chiếc hộp). Đây là yếu tố cốt lõi của tư duy hình học và phân số.

KỊCH BẢN DYSCALCULIA 2: NHẬN DIỆN & XỬ LÝ SỐ LƯỢNG

16/79

4. Đếm dấu chấm (Subitizing vs Counting)

Subitizing là khả năng nhận diện ngay lập tức số lượng nhỏ (1-4) mà không cần đếm. Trẻ khó tính toán thường mất khả năng này và phải đếm từng điểm một.

5. Nhận dạng số (Number Recognition)

Yêu cầu trẻ tìm một số cụ thể lẫn lộn giữa các chữ cái hoặc ký hiệu có hình dáng tương đồng, ví dụ số 5 lẫn với chữ S hoặc số 2.

KỊCH BẢN DYSCALCULIA 3: ĐƯỜNG SỐ (NUMBER LINE)

17/79

6. Ánh xạ Không gian - Số học

Khả năng ước lượng vị trí của một số trên trục là biểu hiện rõ nhất của "Mental Number Line". Thử nghiệm chia làm 3 phiên bản độ khó tăng dần.

V1 (Cơ bản): Trục 0-10 có đầy đủ vạch chia. Đo khả năng đếm/nhảy vạch.
V2 (Trung bình): Trục 0-100 chỉ có mốc hai đầu và mốc giữa (50). Đo lường khả năng dùng "neo" (Anchoring).
V3 (Trừu tượng): Trục không có vạch chia. Yêu cầu tính toán tỷ lệ thuần túy (Proportional reasoning).

Minh họa đường số

Mô phỏng Quỹ đạo Ánh nhìn Tìm kiếm

KỊCH BẢN DYSCALCULIA 4: ĐỒNG BỘ NGHE NHÌN

18/79

7. Đồng bộ Đa phương thức (A-V Sync)

Não bộ cần đồng bộ hóa âm thanh nghe được (phonological) với hình ảnh trực quan (visual) của con số.

Nhiệm vụ: Loa phát âm thanh "Số Bốn", trên màn hình hiển thị các số [2, 4, 7, 9].
Đo lường: Tính toán độ trễ thời gian phản ứng (RT_AV) từ lúc kết thúc âm thanh đến khi ánh mắt khóa chặt (Fixation) vào đúng mục tiêu.
Đặc trưng Dyscalculia: Trẻ gặp khó khăn trong việc gán nhãn ngữ âm vào biểu tượng, dẫn đến độ trễ RT_AV rất cao, ánh mắt lơ đễnh hoặc nhìn nhầm số.

Đo lường Độ trễ Phản hồi (Latency)

II. KIẾN TRÚC TỔNG THỂ: THU THẬP DỮ LIỆU TỰ KỶ (ASD)

19/79

Luồng xử lý mô-đun: Kiến trúc hệ thống tích hợp chặt chẽ giữa phần cứng (thiết bị theo dõi mắt Eye-tracker) và một ngăn xếp phần mềm chuyên dụng để phân tích hành vi thị giác của trẻ Rối loạn Phổ Tự kỷ.

Các tiến trình cốt lõi: Cung cấp kích thích thị giác (Visual stimuli) → Ghi nhận chuyển động mắt → Tiền xử lý dữ liệu → Nhận dạng Vùng quan tâm (AOI) bằng AI → Trích xuất đặc trưng và Phân loại tự động.

II. KIẾN TRÚC TỔNG THỂ: DỮ LIỆU KHÓ TÍNH TOÁN (DYSCALCULIA)

20/79

Tùy biến cho nhận thức số học: Hệ thống được thiết kế chuyên biệt để ghi nhận phản xạ của trẻ Dyscalculia khi tương tác trực tiếp với các bài tập toán học, trục số và không gian trên màn hình máy tính.

Ánh xạ và Trực quan hóa: Luồng dữ liệu cho phép liên kết tọa độ ánh nhìn của trẻ với các tương tác phần mềm, từ đó xuất ra các Bản đồ nhiệt (Heatmap) và Quỹ đạo quét mắt (Scanpath) chi tiết để chẩn đoán chiến lược nhận thức.

II. GIẢI PHÁP THỰC HIỆN 2: BÙ TRỪ ĐỘ TRỄ & ĐỒNG BỘ VÒNG KÍN

21/79

Mô hình Bù trừ Độ trễ (Latency)

Dù có Master Clock, bản thân phần cứng vẫn có độ trễ truyền tín hiệu. Thuật toán xử lý dữ liệu phải áp dụng các công thức chuẩn hóa ngược:

1. Đồng bộ Eye-tracking & Chuột:

T_real = T₀ + tᵢ

2. Bù đắp độ trễ phần cứng hiển thị Video (δ):

T_frame_0 = T_start_time + δ

3. Khung thời gian Audio tương đối:

Δt = t_offset - t_onset

Bản đồ Ánh xạ (Timeline Mapping)

II. KIẾN TRÚC HỆ THỐNG THU THẬP & ĐỒNG BỘ VÒNG KÍN

Giải pháp Kiến trúc Hệ thống

Xây dựng một kiến trúc End-to-End để ép buộc các thiết bị hoạt động ở các xung nhịp khác nhau ghi dữ liệu lên một Master Clock duy nhất.

Tầng Thu thập (Cảm biến): Tobii Eye-tracker (90Hz) lấy tín hiệu nhãn cầu; Màn hình (60Hz) ghi lại frame hình; Micro (44.1kHz) bắt âm thanh.
Tầng Đồng bộ (Sync Engine): Nắm giữ mốc thời gian hệ thống T_sys. Khử độ trễ phần cứng (Latency).
Tầng Lưu trữ: Xuất ra cấu trúc JSON/CSV phân cấp có quan hệ ánh xạ 1:1, sẵn sàng cho thuật toán Trích xuất.

Sơ đồ Luồng Dữ liệu (Data Pipeline)

II. CHUẨN HOÁ ĐỊNH DẠNG ĐẦU RA & CẤU TRÚC CƠ SỞ DỮ LIỆU

24/79

Loại dữ liệu	Các tham số chính	Định dạng lưu trữ
Hành vi mắt	Điểm dừng (Fixations), Chuyển động đảo mắt (Saccades), Quỹ đạo (Gaze paths), Kích thước đồng tử	CSV / JSON (Chuỗi thời gian)
Tương tác vật lý	Click stream, Mouse trajectory, Keyboard logs, Thời gian phản hồi	Log events (Rời rạc)
Ngữ cảnh & Kích thích	Audio stimuli timestamps, Task status (Đúng/Sai), Trạng thái màn hình	Structured metadata

Mô hình Lưu trữ Dữ liệu Hợp nhất

Để giải quyết sự không đồng nhất, dữ liệu được tổ chức thành cấu trúc cây phân cấp (JSON), đảm bảo mọi tín hiệu đều tham chiếu đến mốc thời gian tuyệt đối T₀.

1. Chuỗi Thời gian (Time-series): Tọa độ Mắt

E = { e₁, e₂, ..., eₙ } với eᵢ = (tᵢ, xᵢ, yᵢ)

2. Chuỗi Sự kiện (Event-driven): Chuột / Phím

V = { ε, P_cursor, Ω, tₑ }

(ε: Loại sự kiện, Ω: Nhãn ngữ nghĩa nút bấm)

3. Khoảng thời gian (Interval): Audio Metadata

A = [ t_onset, t_offset ]

Mô phỏng Cây Dữ liệu JSON (Data Tree)

II. CƠ CHẾ XỬ LÝ & ĐỒNG BỘ HÓA SỰ KIỆN (EVENT SYNC)

22/79

Giải quyết Dữ liệu Bất đồng bộ

Các thiết bị hoạt động độc lập: Mắt gửi tọa độ liên tục (90Hz), Chuột chỉ gửi khi click (thưa thớt), Audio gửi theo bộ đệm. Luận án giải quyết bằng Cơ chế Hàng đợi và Đóng dấu thời gian (Timestamping).

Tiếp nhận (Queue): Mọi sự kiện khi sinh ra đều được đẩy ngay vào một Hàng đợi chung của hệ thống (Sync Engine).
Đóng dấu thời gian: Sync Engine như một "người gác cổng", nhìn vào Đồng hồ chủ (T₀) và đóng dấu thời gian tuyệt đối (tᵢ, tₑ) cho từng gói dữ liệu vừa đến.
Kết quả (Ánh xạ đồng nhất): Từ 3 luồng rời rạc, dữ liệu được xếp gọn gàng lên một trục thời gian duy nhất. AI có thể truy xuất chính xác trạng thái Mắt đang ở đâu ngay khi tiếng Audio vang lên.

Sơ đồ Hợp nhất Đa phương thức

II. TOÁN HỌC ĐỒNG BỘ: TẦN SỐ VÀ TỶ LỆ KHÔNG GIAN

23/79

1. Ánh xạ Tần số (Frequency Mapping)

Thiết bị Mắt lấy mẫu ở 90Hz (~11.1ms), trong khi Video hiển thị ở 60Hz (~16.67ms). Hệ thống sử dụng véc-tơ dữ liệu thời gian khung hình Vₜ = {t₁, t₂, ..., tₙ} để ánh xạ chính xác 1:1 tọa độ mắt eᵢ vào đúng khung hình chứa nó:

tₖ ≤ T_eye < tₖ₊₁

2. Bù trễ phần cứng & Tỷ lệ

Bù trừ độ trễ khởi tạo bộ mã hóa Video (δ) để căn chỉnh với trục T₀ [cite: 1004, 1005], đồng thời nhân hệ số Scale (S) để khớp tọa độ cảm biến vật lý với độ phân giải màn hình W × H [cite: 936, 937, 950]:

T_frame_0 = T_start + δ (X_screen, Y_screen) = (x_sensor × S, y_sensor × S)

Mô phỏng Khớp tần số (90Hz vs 60Hz)

II. THỰC NGHIỆM & QUY MÔ DỮ LIỆU THU ĐƯỢC

27/79

Thực nghiệm: Môi trường thực hiện

Hệ thống được mang trực tiếp đến các trung tâm giáo dục đặc biệt và trường học, đảm bảo trẻ được kiểm thử trong không gian quen thuộc, giảm thiểu áp lực tâm lý.

Thực nghiệm: Đối tượng tham gia

Nhóm Đối chứng: Trẻ phát triển điển hình (TD).
Nhóm ASD: Trẻ rối loạn phổ tự kỷ.
Nhóm Dyscalculia: Trẻ khó khăn về tính toán.

Sau quá trình thu thập thực tế, luận án đã xây dựng được một bộ dữ liệu lớn với các thông số nổi bật:

~2.43 GB

Tổng kích thước dữ liệu hợp nhất

1,230

Lượt trình bày nhiệm vụ kích thích

~2.7k

Điểm dừng (Fixations) trung bình/phiên

II. THÔNG TIN VỀ BỘ DỮ LIỆU CỦA TRẺ RLPTK

25/79

Đặc điểm	Một phiên	Toàn bộ bộ dữ liệu (660 phiên)
Thời lượng kích thích thị giác	~78 giây (1,3 phút)	~51.480 giây (~14,3 giờ)
Thời lượng phiên thực tế	20–30 phút	~1.375–1.925 giờ
Tần số lấy mẫu	90 Hz	90 Hz
Số dòng dữ liệu (điểm gaze)	~7.020 dòng	~4.633.200 dòng (~4,6 triệu)
Kích thước file ET.json	~500 KB	~330 MB
Kích thước file sync_data.csv	~700 KB	~462 MB
Tổng kích thước bộ dữ liệu	~1,2 MB	~792 MB
Số điểm dừng (fixations) trung bình	~200 fixations	~132.000 fixations
Số kích thích thị giác	12 ảnh	7.920 lượt trình chiếu
Ngưỡng dữ liệu hợp lệ	≥ 70%	≥ 70%

II. THÔNG TIN VỀ BỘ DỮ LIỆU CỦA TRẺ KHÓ TÍNH TOÁN

26/79

Đặc điểm	Một phiên	Toàn bộ bộ dữ liệu (82 phiên)
Thời lượng phiên	342 giây (~5,7 phút)	~28.000 giây (~7,8 giờ)
Tần số lấy mẫu trung bình	68,7 Hz	68,7 Hz
Số dòng dữ liệu (đồng bộ)	23.508 dòng	~1.930.000 dòng
Kích thước file ET.json	~600 KB	~49 MB
Kích thước file Mouse.json	~50 KB	~4 MB
Kích thước file âm thanh (.wav)	~1,3 MB (11,5 giây)	~107 MB
Kích thước file video màn hình (.avi)	~25 MB	~2,05 GB
Kích thước file CSV đồng bộ	2,67 MB	~219 MB
Tổng kích thước bộ dữ liệu	~29,6 MB	~2,43 GB
Số điểm dừng (fixations) trung bình	33 fixations	~2.700 fixations
Thời lượng audio trung bình	11,52 giây	~945 giây (~15,75 phút)
Độ phủ audio	3,1%	3,1%
Độ phủ dữ liệu chuột	0,1%	Biến thiên (0,1–10%)
Số nhiệm vụ kích thích	15 tác vụ	1.230 lượt trình bày

III. TOÁN HỌC HÓA DẤU ẤN SINH HỌC (BIOMARKERS)

29/83

Chuyển hóa Tọa độ thành Nhận thức

Dữ liệu thô (tọa độ x, y theo thời gian) không mang ý nghĩa lâm sàng cho đến khi được ánh xạ vào Vùng quan tâm (AOI) và chuyển hóa thành 3 dấu ấn sinh học cốt lõi:

1. Thời gian Khóa mục tiêu (TTFF): Tính từ lúc kích thích xuất hiện (t₀) đến khi điểm nhìn đầu tiên rơi vào AOI. Phản ánh tốc độ phản xạ và khả năng định hướng sự chú ý.
2. Tổng thời lượng Chú ý (Dwell Time): Tổng thời gian mắt lưu lại bên trong AOI. Chỉ số này đại diện cho mức độ hứng thú hoặc sự tập trung xử lý thông tin.
3. Số lần Dừng mắt (Fixation Count): Đếm số lượng cụm Fixation rớt vào AOI. Phản ánh chiến lược quét tìm kiếm (Quét liên tục hay Khóa chặt một chỗ).

Mô phỏng Quỹ đạo Sinh học (Eye-tracking Scanpath)

II. ĐÓNG GÓP CỦA CHƯƠNG 2

28/79

1

Tính thực tiễn

Giải quyết rào cản về thiếu hụt dữ liệu chuẩn hóa trong nghiên cứu.

2

Tính kỹ thuật

Đề xuất kiến trúc đồng bộ Master Clock và Data Fusion cho thiết bị giá thành thấp.

3

Vai trò nền tảng

Tạo tiền đề để huấn luyện mô hình trích xuất đặc trưng và chẩn đoán (SVM, DBN) ở các chương tiếp theo.

III. BÀI TOÁN NGHIÊN CỨU 2

29/79

PHƯƠNG PHÁP TRÍCH XUẤT ĐẶC TRƯNG
THỊ GIÁC TỰ ĐỘNG

Định nghĩa bài toán nghiên cứu 2 (Chương 3)

30/79

Mô tả bài toán

Xác định vấn đề: Dữ liệu tọa độ ảnh nhìn thô thiếu tính định lượng. Việc gán nhãn Vùng quan tâm (AOI) thủ công trên khung hình động tốn kém thời gian và dễ sai lệch chủ quan.
Yêu cầu: Tự động hóa định vị AOI trên chuỗi khung hình động.
Mục tiêu: Chuyển đổi dữ liệu ảnh nhìn thô thành các chuỗi không gian - thời gian đồng bộ, phản ánh khách quan mức độ chú ý và tải nhận thức.

Minh họa bài toán AOI động

III. NGHIÊN CỨU LIÊN QUAN

31/79

Thuật toán nhận dạng sự kiện

Thuật toán nhận dạng	Cơ chế phân loại chính	Phương pháp vận hành và trường hợp sử dụng
I-VT (Ngưỡng vận tốc)	Vận tốc góc giữa các điểm	Áp dụng ngưỡng vận tốc nghiêm ngặt; hiệu quả tính toán cao nhưng nhạy cảm với nhiễu cảm biến.
I-HMM (Mô hình Markov ẩn)	Phân tích chuyển đổi trạng thái dựa trên xác suất	Sử dụng mô hình thống kê hai trạng thái về phân bố vận tốc; có độ ổn định cao trong môi trường nhiễu.
I-DT (Ngưỡng phân tán)	Sự phân bố điểm không gian theo thời gian	Phân tích sự tán xạ hình học trong một cửa sổ thời gian di chuyển; rất tốt để xác định các điểm nhìn tập trung ổn định khi đọc.
I-MST (Cây bao trùm tối thiểu)	Lý thuyết đồ thị và tỷ lệ độ dài cạnh	Xây dựng cấu trúc cây và cắt các cạnh dài (chuyển động mắt nhanh) để cô lập các cụm điểm dày đặc (điểm nhìn cố định).
I-AOI (Khu vực quan tâm)	Giao điểm không gian với các vùng được xác định trước	Phân loại phụ thuộc vào ngữ cảnh; được sử dụng rộng rãi trong nghiên cứu UX để xác định xem các yếu tố giao diện người dùng cụ thể có được hiển thị hay không.

Tổng quan về các phương pháp thuật toán được sử dụng để phân tích các luồng tọa độ nhìn thô liên tục thành các sự kiện vận động mắt riêng biệt có thể phân tích được.

III. NGHIÊN CỨU LIÊN QUAN (AOI)

32/79

Thuật toán phát hiện AOI trên khung hình

Loại kích thích	Phương pháp nhận dạng	Khả năng tái tạo	Mức độ lao động	Đánh giá của chuyên gia
Tĩnh	Vẽ tay	Thấp	Cao	Tránh sử dụng phương pháp này để so sánh giữa các nghiên cứu khác nhau.
Tĩnh	Voronoi / LRVT	Cao	Thấp	Tiêu chuẩn vàng cho phân tích tĩnh khách quan.
Năng động	Lập bản đồ ánh nhìn	Cao	Vừa phải	Thích hợp nhất cho việc cuộn hoặc di chuyển trên bề mặt phẳng.
Năng động	AutoAOI (Học sâu)	Vừa phải	Thấp	Cần thiết cho việc phân tích video quy mô lớn.
Tương tác	Dựa trên DOM	Rất cao	Rất thấp	Lý tưởng cho nghiên cứu UX và tối ưu hóa công cụ tìm kiếm.
3D / VR	Chiếu tia	Cao	Thấp	Tiêu chuẩn tương tác; nhạy cảm với tiếng ồn.
3D / VR	Đúc hình cầu	Cao	Thấp	Thích hợp nhất cho môi trường 3D phức tạp.
Lâm sàng	Căn chỉnh độ nổi bật	Rất cao	Thấp	Khả năng chẩn đoán cao nhờ trí tuệ nhân tạo.

Tổng quan về các phương pháp nhận dạng AOI trên khung hình tĩnh và động.

III. PHƯƠNG PHÁP ĐỀ XUẤT

33/79

Tổng quan

Tích hợp thuật toán phát hiện điểm dừng PeyeMMV và mô hình phân đoạn zero-shot Segment Anything Model (SAM) kết hợp luồng quang học.

Giải pháp Đề xuất: PeyeMMV

Phát triển dựa trên họ thuật toán I-DT (Ngưỡng phân tán không gian).
Không dựa vào vận tốc mà dựa vào mật độ phân bố của tọa độ (x, y).
Kết quả: Thuật toán bền vững (robust) trước các nhiễu động tần số cao, khôi phục lại trọn vẹn ý nghĩa nhận thức của một điểm nhìn.

Giải pháp Đề xuất: SAM

Để vượt qua giới hạn của việc khoanh vùng thủ công, nghiên cứu ứng dụng Segment Anything Model (SAM) để tự động hóa gán nhãn AOI trong khung hình động.

III. THUẬT TOÁN PeyeMMV & LOGIC CỐT LÕI

34/79

Thuật toán PeyeMMV (tt)

Cơ chế Phân cụm Dữ liệu 3 Bước

Thuật toán không sử dụng vòng lặp logic (If/Else) đơn thuần, mà xử lý trực tiếp trên không gian hình học của tập điểm (x, y):

1. Khởi tạo & Phân cụm: Gom các điểm dữ liệu thô liền kề có khoảng cách phân tán tối đa d < ε₁. Những điểm vượt ra ngoài bị coi là Saccade.
2. Tinh chỉnh Trọng tâm: Loại bỏ các điểm nhiễu cục bộ (Outliers) có dung sai d > ε₂. Tính toán lại tọa độ Trọng tâm (Centroid) đại diện cho toàn bộ cụm.
3. Ràng buộc Thời gian: Cụm không gian này chỉ được công nhận là một Fixation nếu tổng thời gian gom được lớn hơn ngưỡng nhận thức t_total > t_min (thường là 100ms).

Mô phỏng Quá trình Biến đổi Dữ liệu

Logic cốt lõi PeyeMMV

Cơ chế Phân cụm Dữ liệu 3 Bước

Thuật toán không sử dụng ngưỡng vận tốc, mà xử lý trực tiếp trên không gian hình học của tập điểm (x, y):

1. Khởi tạo & Phân cụm: Gom các điểm dữ liệu thô liền kề có khoảng cách phân tán tối đa d < ε₁. Những điểm vượt xa bị coi là bước nhảy Saccade.
2. Tinh chỉnh Trọng tâm: Loại bỏ các điểm nhiễu cục bộ (Outliers) lân cận có dung sai d > ε₂. Tính toán lại tọa độ Trọng tâm (Centroid) đại diện cho toàn cụm.
3. Ràng buộc Thời gian: Cụm không gian này chỉ được công nhận là một Fixation hợp lệ nếu tổng thời gian gom vượt qua ngưỡng nhận thức t_total > t_min (thường ≥ 100ms).

Mô phỏng Động: Biến đổi Dữ liệu của PeyeMMV

III. SAM ZERO-SHOT, PROMPT-AND-TRACK & SHRINK-TO-FIT

35/79

Mô hình SAM (Zero-shot)

Giải pháp Tự động hóa Gán nhãn

Để vượt qua giới hạn của việc khoanh vùng thủ công, nghiên cứu ứng dụng Segment Anything Model (SAM) - mô hình thị giác máy tính lõi từ Meta với hai đặc tính ưu việt:

Sức mạnh Zero-shot: Khả năng bóc tách, phân vùng chính xác bất kỳ đối tượng nào trong khung hình mà không cần phải thu thập dữ liệu và huấn luyện lại mô hình (No fine-tuning).
Mơ hồ Phân cấp (Hierarchical Ambiguity): Mô hình có tư duy không gian lồng ghép. Chỉ cần cung cấp duy nhất một tọa độ Điểm gợi ý (Point Prompt), hệ thống có thể hiểu và trích xuất ra nhiều cấp độ vật thể bao trùm lên nhau (Ví dụ: Từ Toàn bộ người -> Chiếc áo -> Nút áo).

Mô phỏng Cơ chế Mơ hồ Phân cấp của SAM

Cơ chế Prompt-and-Track

Giải quyết Bài toán Chuyển động

Khác với ảnh tĩnh, video yêu cầu mô hình AI phải tự động bám sát đối tượng qua hàng ngàn khung hình liên tiếp. Cơ chế Prompt-and-Track tự động hóa hoàn toàn việc này qua 3 bước:

1. Khởi tạo (Prompt): Cung cấp hộp giới hạn ban đầu tại khung hình đầu tiên (t=0) để "dạy" mô hình nhận diện mục tiêu.
2. Mở rộng (Expand): Tại khung hình tiếp theo (t+1), khi vật thể di chuyển, hệ thống tự động mở rộng hộp giới hạn cũ (thêm 10-20%) để tạo thành một "mạng lưới an toàn" bắt lấy chuyển động mới.
3. Tinh chỉnh (Refine): Mô hình SAM nhận hộp đã mở rộng làm đầu vào mới, tự động phân tích và cắt gọt phông nền để xuất ra mặt nạ (Mask) ôm sát vật thể.

Mô phỏng Luồng Bám sát Vật thể (Tracking Pipeline)

Khắc phục mất dấu

Khắc Phục Rủi Ro Mất Dấu

Trong môi trường video thực tế, trẻ rung lắc đầu hoặc vật thể di chuyển nhanh sẽ khiến khung theo dõi bị lệch. Nếu khung này chỉ khớp khít với vật thể ở khung hình trước, nó sẽ dễ dàng làm mất dấu vật thể ở khung hình sau.

Quy trình Shrink-to-Fit (Co rút ôm sát)

Tạo mạng lưới an toàn: Hệ thống chủ động nới rộng hộp giới hạn cũ (Expanded Box) thêm 20% diện tích. Điều này đảm bảo vật thể dù dịch chuyển đột ngột vẫn nằm trọn bên trong hộp.
SAM Bóc tách & Co rút: SAM nhận chiếc "hộp rộng" này làm dữ liệu đầu vào. Nhờ khả năng hiểu ngữ cảnh hình ảnh, AI tự động quét gạt bỏ toàn bộ phông nền thừa, sau đó "co rút" mặt nạ lại (Shrink-to-fit) ôm sát hoàn hảo từng đường viền của vật thể.

Mô phỏng Quá trình Bóc tách Nền (Shrink-to-Fit)

IV. PHƯƠNG PHÁP XÁC THỰC HIỆU NĂNG THUẬT TOÁN

37/79

Quy trình Đánh giá Đối chứng (Dual-Stream)

Để đảm bảo tính khách quan và khoa học, hệ thống AI đề xuất được đánh giá thông qua một kiến trúc hai luồng song song trên tập dữ liệu video đã được lấy mẫu phân tầng.

Luồng A (Tiêu chuẩn tham chiếu): Chuyên gia thực hiện gán nhãn thủ công qua phần mềm CVAT. Đòi hỏi bài kiểm tra độ tin cậy liên người chấm (IRR > 0.85) để tạo ra bộ nhãn Ground Truth chính xác nhất.
Luồng B (Hệ thống tự động): Chạy luồng khởi tạo SAM (Zero-shot) và lan truyền vết tự động qua các khung hình.
Đối chiếu chéo: Hai tập dữ liệu đầu ra được đưa vào module tính toán để đánh giá độ chính xác (IoU, Sai số) và hiệu suất.

Sơ đồ Khung Đánh giá (Evaluation Framework)

IV. CÁC CHỈ SỐ ĐO LƯỜNG HIỆU NĂNG (METRICS)

38/79

Hệ thống Chấm điểm Đa chiều

Để khẳng định hệ thống AI có thể thay thế hoàn toàn con người trong việc phân vùng dữ liệu mắt, nghiên cứu sử dụng 3 thước đo:

1. Chỉ số Giao thoa (IoU - Intersection over Union)

Đánh giá mức độ chồng lấp không gian. IoU = (Diện tích Giao) / (Diện tích Hợp). IoU càng tiến gần đến 1, AI dự đoán càng sát với nhãn của chuyên gia.

2. Sai số Điểm ảnh (Pixel-level Error)

Đi sâu vào chi tiết vùng biên vật thể để tính toán tỷ lệ Phân loại sai (Gồm: Nhận diện thừa - False Positives, và Bỏ sót - False Negatives).

3. Hiệu suất Thời gian (Efficiency)

Bài toán tối ưu chi phí: So sánh trực tiếp tổng thời gian cần thiết để xử lý 1 phút video giữa lao động thủ công và hệ thống máy tính.

Mô phỏng Các Chỉ số Đánh giá (Dashboard)

IV. KẾT QUẢ THỰC NGHIỆM ĐÁNH GIÁ MÔ HÌNH

39/79

Chất lượng Phân vùng (Độ chính xác)

Kết quả cho thấy hệ thống AI đạt độ trùng khớp gần như hoàn hảo so với chuyên gia con người:

Chỉ số IoU trung bình: Đạt mức 0.92 (92%). Thỏa mãn hoàn toàn tiêu chuẩn khắt khe để phân tích ánh nhìn.
Pixel Error: Tỷ lệ phân loại sai quanh vùng biên rất thấp, không gây ảnh hưởng đến quyết định "có nhìn vào vật thể hay không" của thuật toán PeyeMMV.
Độ bền vững: Mô hình duy trì IoU cao ngay cả khi vật thể thay đổi kích thước do góc máy quay.

Hiệu suất & Đột phá Chi phí Thời gian

Giải quyết triệt để nút thắt cổ chai lớn nhất trong nghiên cứu Eye-tracking động:

Con người: Cần xấp xỉ 60 phút vẽ tay cho mỗi 1 phút dữ liệu video.
AI (SAM + Prompt): Hoàn thành quy trình tự động chỉ trong ~3 phút cho cùng khối lượng công việc.
Đột phá: Cắt giảm 95% thời gian và công sức gán nhãn, cho phép mở rộng quy mô nghiên cứu lâm sàng từ vài chục bệnh nhi lên hàng ngàn dữ liệu.

III. LƯU ĐỒ TRÍCH XUẤT ĐẶC TRƯNG

36/79

III. THỰC NGHIỆM LÂM SÀNG

40/79

Khối chức năng trong Hệ thống Phân tích RLPTK	Vai trò và Mục tiêu Triển khai Kỹ thuật
Bộ Dữ liệu Kích thích Đa dạng	Xây dựng gồm 12 đối tượng sinh thái học (đồ chơi tương tác, con rối khuôn mặt, xe ô tô) nhằm khơi gợi đồng thời hành vi chú ý xã hội và vật lý.
Mô-đun Trực quan hóa Hành vi	Khởi tạo các bản đồ nhiệt (Heatmaps) đa sắc và đường quét (Scanpaths) từ đặc trưng chuyển động mắt để tái hiện chiến lược quan sát.
Mô-đun Học máy (Phân loại Tự động)	Ứng dụng bộ công cụ khai phá dữ liệu nạp trực tiếp vào mạng Support Vector Machine (SVM) nhằm tạo lập hàng rào kỹ thuật phân định giữa trẻ ASD và trẻ phát triển điển hình (TD).

Đặc điểm Thống kê So sánh	Phản ứng của Nhóm Điển hình (TD)	Phản ứng của Nhóm RLPTK (ASD)	Ý nghĩa Lâm sàng Đằng sau Dữ liệu
Số lượng Điểm dừng (Fixation Count)	Mật độ cao, quét diện rộng	Tần suất thấp, thiếu tính lặp lại	Khả năng khám phá thị giác ở trẻ ASD bị giới hạn
Thời lượng Duy trì (Duration)	Kéo dài liên tục trên vùng chứa ngữ nghĩa	Rời rạc, chu kỳ duy trì ngắn	Cơ chế chú ý điều hành suy yếu
Thời gian Tới đích Đầu tiên (TTFF)	Nhận diện nhanh kích thích xã hội	Độ trễ lớn, chậm định hướng	Bằng chứng định lượng về né tránh kích thích xã hội

IV. KẾT QUẢ PHÂN LOẠI VÀ CHẨN ĐOÁN LÂM SÀNG

41/79

Hiệu suất Phân loại của SVM

Mô hình Máy véc-tơ hỗ trợ (SVM) được đánh giá chéo (Cross-validation) trên không gian đặc trưng sinh học đa chiều để phân biệt trẻ mắc RLPTK và trẻ phát triển điển hình (TD).

Độ chính xác (Accuracy) - 91%: Tỷ lệ chẩn đoán đúng trên toàn bộ tập dữ liệu, khẳng định tính đúng đắn và độ tin cậy của thuật toán.
Độ nhạy (Sensitivity) - 87%: Khả năng nhận diện chính xác trẻ mắc tự kỷ (True Positive). Đây là chỉ số quan trọng nhất trong y tế nhằm hạn chế tối đa việc bỏ lọt bệnh nhân (False Negative).
Độ đặc hiệu (Specificity) - 97%: Khả năng loại trừ chính xác trẻ phát triển bình thường (True Negative), giúp hạn chế các báo động giả (False Positive) gây hoang mang cho phụ huynh.

Bảng điều khiển Hiệu suất Mô hình (Performance Dashboard)

V. GIẢI MÃ CHIẾN LƯỢC: PHÁT HIỆN HÀNH VI "ĐOÁN MÒ"

42/79

Vượt qua giới hạn của Bài Test truyền thống

Trong các bài kiểm tra trắc nghiệm, điểm số (đúng/sai) không phản ánh được quá trình tư duy (Cognitive Process). Trẻ có thể chọn đúng nhờ "đoán mò" ngẫu nhiên, hoặc chọn sai do tính toán nhầm một bước nhỏ dù đã rất nỗ lực.

Sự minh bạch hóa từ Eye-tracking:

Chiến lược Tính toán: Quỹ đạo mắt luân chuyển logic: đọc đề bài, dừng lâu ở con số/toán tử, đối chiếu tuần tự các đáp án rồi chốt mục tiêu.
Chiến lược Đoán mò: Ánh mắt lướt qua đề bài cực nhanh hoặc bỏ qua hoàn toàn; Scanpath hỗn loạn và rớt ngẫu nhiên xuống một đáp án.
Giá trị lâm sàng: Giúp nhận biết khi nào trẻ quá tải và bỏ cuộc để can thiệp kịp thời, thay vì chỉ nhìn kết quả sai.

Ảnh minh họa 1

Ảnh minh họa 2

Mô phỏng Playback Nhãn cầu

V. ĐẶC TRƯNG NHẬN THỨC: HÀNH VI "ĐẾM TUẦN TỰ" KÉM HIỆU QUẢ

43/79

Khiếm khuyết Khả năng Nhận diện Nhanh (Subitizing)

Subitizing là khả năng sinh học bẩm sinh giúp não bộ con người nhận diện ngay lập tức số lượng nhỏ (từ 1 đến 4 vật thể) mà không cần phải thực hiện phép đếm. Trẻ mắc chứng Khó tính toán thường bị khiếm khuyết cơ chế lõi này.

Bằng chứng từ Dữ liệu Ánh nhìn:

Trẻ Điển hình (TD): Sử dụng chiến lược Nhìn tổng thể; ánh mắt hội tụ ở vị trí trung tâm, tạo ra một điểm dừng lớn bao trùm toàn bộ nhóm vật thể.
Trẻ Dyscalculia: Bắt buộc kích hoạt chiến lược Đếm tuần tự; quỹ đạo mắt ghi nhận nhiều điểm Fixation nhỏ và các Saccade rời rạc.
Hệ lụy: Tốn kém tài nguyên nhận thức, tăng thời gian phản hồi và dễ dẫn đến sai sót khi số lượng tăng lên.

Cụm ảnh minh họa

Mô phỏng Quỹ đạo Ánh nhìn

V. MẤT PHƯƠNG HƯỚNG KHÔNG GIAN TOÁN HỌC (PHẦN 1)

44/79

Sự sụp đổ của "Trục số Tâm trí"

Khả năng ánh xạ con số vào một không gian tuyến tính là bản năng của não bộ. Ở trẻ Dyscalculia, trục tọa độ này bị méo mó, dẫn đến việc mất phương hướng toán học.

Nhiệm vụ: Tìm vị trí số "73" trên Trục (0 - 100)

Phiên bản 1: Trục trống chỉ có điểm đầu và cuối. Đánh giá khả năng ước lượng tỷ lệ; trẻ Dyscalculia quét mắt hỗn loạn vì không có điểm neo.
Phiên bản 2: Trục có neo 5 đơn vị. Trẻ TD nhảy mắt nhanh đến mốc 75 rồi lùi lại, trong khi trẻ Dyscalculia đếm nhẩm từng vạch từ 0.

Ảnh minh họa 1

Ảnh minh họa 2

Mô phỏng Quỹ đạo: Ước lượng Tỷ lệ & Dùng Neo

V. MẤT PHƯƠNG HƯỚNG KHÔNG GIAN TOÁN HỌC (PHẦN 2)

45/79

Phiên bản 3: Thử thách Trí nhớ Làm việc (Working Memory)

Nhiều trẻ Dyscalculia có thể biểu diễn tính toán khi có đủ công cụ trực quan, nhưng lại gặp khó khăn nghiêm trọng trong việc lưu giữ thông tin toán học trong đầu để thao tác.

Cơ chế Kịch bản (V3):

T=0 đến 5s: Màn hình hiển thị trục số đầy đủ vạch chia. Yêu cầu trẻ tìm và nhìn vào số "42".
Sau 5s (Fade out): Mọi vạch chia và con số biến mất, trục số trở nên trống trơn. Yêu cầu trẻ tiếp tục nhìn vào vị trí số 42.
Phân tích Ánh nhìn: Trẻ TD duy trì được điểm dừng mắt ổn định (Neo tâm trí) nhờ trí nhớ làm việc tốt. Trẻ Dyscalculia lập tức "trôi dạt ánh nhìn" (Gaze drift) và mất phương hướng ngay khi điểm tựa thị giác biến mất.

Mô phỏng Động: Bài test Trí nhớ Không gian

V. MINH HỌA LÂM SÀNG: BÀI TOÁN LỜI VĂN ĐA PHƯƠNG THỨC

46/79

Nghiên cứu trường hợp V: Sự mất kết nối Âm thanh - Hình ảnh

Bài kiểm tra thực tế sử dụng định dạng đa phương thức: Kết hợp văn bản, biểu tượng số và hỗ trợ đọc bằng âm thanh (biểu tượng chiếc loa). Mục tiêu là kiểm tra khả năng tích hợp thông tin của trẻ.

Nhiệm vụ & Phân tích:

Mục tiêu: Đồng bộ hướng dẫn bằng âm thanh ("Lan có 2 cái kẹo...") với quá trình phân tích văn bản và tìm kiếm bằng hình ảnh (các nút đáp án).
Ý nghĩa: Đối với trẻ Điển hình, âm thanh hỗ trợ quá trình giải quyết vấn đề. Tuy nhiên, với trẻ Khó tính toán (Dyscalculia), việc tiếp nhận thông tin đa phương thức cùng lúc thường gây hiệu ứng ngược.
Gánh nặng nhận thức: Việc đồng thời phải nghe, đọc và tính toán làm tăng gánh nặng lên trí nhớ làm việc. Ánh mắt quét hỗn loạn, mất khả năng trích xuất thông tin chính và thường dẫn đến việc từ bỏ.

Quỹ đạo Mắt trên Bài toán Đa phương thức

III. ĐÓNG GÓP CỦA CHƯƠNG 3

47/79

1

Tính thực tiễn

Giải quyết vấn đề nâng cao hiệu quả về độ chính xác và thời gian thực hiện xác định các đối tượng quan tâm trong những khung hình động.

2

Tính kĩ thuật

Đề xuất phương pháp nhận diện sự kiện chuyển động mắt và phương pháp phát hiện vùng quan tâm, giúp ánh xạ điểm nhìn từ thông tin tọa độ thành các thông tin có ý nghĩa trên mỗi khung hình.

3

Vai trò nền tảng

Tạo cơ sở diễn giải thông tin thị giác, hỗ trợ điều chỉnh can thiệp trong các chương sau; đồng thời làm tiền đề cho việc khai thác dữ liệu eye-tracking trong các bài toán cá nhân hóa và hỗ trợ ra quyết định.

V. BÀI TOÁN NGHIÊN CỨU 3

48/79

PHƯƠNG PHÁP HỖ TRỢ CAN THIỆP

Định nghĩa bài toán nghiên cứu 3 (Chương 4)

49/79

Xác định vấn đề

Các phương pháp can thiệp hiện nay thường áp dụng theo mô hình chung, chưa đáp ứng được đặc điểm nhận thức riêng biệt của từng trẻ. Đồng thời, dữ liệu chuyển động mắt mới chỉ dùng để đánh giá kết quả sau cùng, chưa được tận dụng để điều phối tương tác học tập tức thời.

Yêu cầu

Cần tích hợp luồng dữ liệu thị giác khách quan vào hệ thống để tự động nhận diện khó khăn và cung cấp khuyến nghị điều chỉnh nội dung can thiệp kịp thời.

Mục tiêu

Nghiên cứu và phát triển các phương pháp ứng dụng eye-tracking nhằm phân tích hành vi và cá nhân hóa lộ trình can thiệp cho trẻ rối loạn phát triển.

NGHIÊN CỨU LIÊN QUAN

50/79

Hạn chế hiện nay

Các phương pháp can thiệp thường áp dụng mô hình chung, chưa thích ứng với đặc điểm nhận thức riêng biệt của từng trẻ.

Vấn đề kỹ thuật

Dữ liệu mắt hiện chủ yếu dùng để đánh giá kết quả sau cùng, thay vì tận dụng để điều phối tương tác tức thời hoặc đưa ra khuyến nghị cá nhân hóa.

Khoảng trống nghiên cứu

Thiếu hụt cơ chế ứng dụng đặc trưng chuyển động mắt để tối ưu hóa bài tập và lộ trình hỗ trợ dựa trên dữ liệu hành vi khách quan.

Chu trình can thiệp truyền thống đối với trẻ RLPTK

V. PHƯƠNG PHÁP ĐỀ XUẤT

51/79

2 hướng tiếp cận riêng biệt

Thiết kế phương pháp can thiệp theo đặc điểm nhận thức của từng nhóm trẻ.

Với trẻ RLPTK

Áp dụng hệ thống luật (rule-based) tích hợp vào chu trình can thiệp 5 giai đoạn.

Với trẻ Khó học

Áp dụng Lý thuyết tải nhận thức, thiết kế kiến trúc Hai vòng lặp (truy vết ngược đồ thị) và sử dụng Mạng Bayes động (DBN).

PHƯƠNG PHÁP 1 - CHU TRÌNH CAN THIỆP CHO TRẺ RLPTK

52/79

Hệ thống tích hợp eye-tracking hỗ trợ can thiệp trẻ RLPTK

Cơ chế suy luận logic

                      IF (x > y) THEN

                      Trạng thái hành vi = Phân tán sự chú ý

Trong đó:

x: thời lượng điểm dừng trung bình trên các vùng nhiễu,

y: ngưỡng thời gian được xác định trước.

Minh họa quy trình/cơ chế

V. THỰC NGHIỆM

53/79

Tính năng của hệ thống	Bối cảnh 1: PECS Thiếu hụt chú ý xã hội	Bối cảnh 2: TEACCH Sự tách rời nhận thức
Thông số đầu vào Giai đoạn 1	Thời gian dừng mắt trên AOI đối tác (mặt và tay) so với AOI thẻ PECS.	Tần suất và thời gian dừng mắt trung bình trên các AOI gây nhiễu ngoài không gian làm việc.
Cổng logic Giai đoạn 2	NẾU (Thời gian nhìn Đối tác < Ngưỡng) VÀ (Nhìn ra ngoài > Ngưỡng) THÌ Phân loại = "Trao đổi Xã hội bị lỗi".	NẾU (Thời gian nhìn Xao nhãng > Ngưỡng) HOẶC (Tập trung vào Task < Ngưỡng) THÌ Phân loại = "Rời bỏ Nhiệm vụ".
Đầu ra của hệ thống Giai đoạn 3	Cảnh báo: Chưa có tham chiếu xã hội. Yêu cầu trẻ "Nhìn" trước khi hoàn tất trao đổi.	Cảnh báo: Trôi dạt chú ý ([X] giây). Cần điều hướng bằng lời nói hoặc cử chỉ.
Ý nghĩa lâm sàng	Tránh trao đổi thẻ máy móc; đảm bảo duy trì tương tác xã hội trong giao thức.	Phân biệt khách quan giữa tạm dừng nhận thức và trôi dạt chú ý (hoặc cố ý không tuân thủ).

Thực nghiệm

54/79

Chiều dữ liệu	Thông số	Logic / Ngưỡng điều kiện	Giải thích lâm sàng và khuyến nghị hệ thống
Sự chú ý tổng thể	Tỉ lệ nhìn (Màn hình so với ngoài màn hình)	Giảm xuống dưới ngưỡng (< θengage)	Thiếu chú ý: Người dùng không còn duy trì chú ý thị giác vào không gian nhiệm vụ. Khuyến nghị: Cảnh báo chuyên gia trị liệu thực hiện tái tương tác thủ công và tạm dừng tiến trình bài học.
Sự chú ý tổng thể	Tỉ lệ nhìn (Màn hình so với ngoài màn hình)	Ổn định hoặc tăng lên	Chú ý duy trì: Phát hiện sự chú ý được cải thiện. Khuyến nghị: Đánh giá lại lịch trình khen thưởng; có thể tăng thời lượng nhiệm vụ hoặc tăng cường chất lượng.
Chiến lược xử lý	Số lượng điểm dừng mắt so với thời lượng	Số lượng cao + thời lượng thấp	Quét quá mức (Bối rối): Cho thấy tình trạng quá tải nhận thức nghiêm trọng. Khuyến nghị: Chia nhỏ nhiệm vụ thành các bước nhỏ hơn; làm rõ các chỉ dẫn trực quan ngay lập tức.
Chiến lược xử lý	Số lượng điểm dừng mắt so với thời lượng	Số lượng thấp + thời lượng cao	Xử lý sâu: Cho thấy hiệu quả xử lý cao. Khuyến nghị: Chuyển sang bậc độ khó tiếp theo.
Chú ý chọn lọc	Tỉ lệ mục tiêu so với vật gây nhiễu	Tập trung vào Vật gây nhiễu θdistract	Sự chọn lọc quá mức (Xao nhãng): Người dùng bị cuốn hút bởi các kích thích không thiết yếu. Khuyến nghị: Đơn giản hóa trường thị giác bằng các nguyên tắc TEACCH; tăng độ nổi bật của mục tiêu.
Chú ý chọn lọc	Tỉ lệ mục tiêu so với vật gây nhiễu	Tập trung mục tiêu > θdistract & vật gây nhiễu < θinhibit	Ức chế thành công: Chỉ số xác nhận hiệu quả thực hiện nhiệm vụ và kiểm soát nhận thức. Khuyến nghị: Duy trì mức độ tương phản hình ảnh hiện tại.
Sự thành thạo	Thời gian phản hồi so với độ chính xác	Độ chính xác cao + thời gian phản hồi lâu	Chính xác / Chưa thuần thục: Chính xác nhưng xử lý chậm, ngần ngại. Khuyến nghị: Tập trung vào sự trôi chảy và các bài tập lặp lại thay vì nâng cao các khái niệm mới.
Sự thành thạo	Thời gian phản hồi so với độ chính xác	Độ chính xác cao + thời gian phản hồi nhanh	Làm chủ / Trôi chảy: Kỹ năng đã hoàn toàn tự động hóa. Khuyến nghị: Giới thiệu các nhiệm vụ tổng quát hóa trong các môi trường khác nhau.

VII. TRIỂN KHAI 1: KHUNG CAN THIỆP LÂM SÀNG TRẺ RLPTK (ASD)

55/79

Tổng quan Chương trình Can thiệp

Dựa trên nền tảng Hệ thống Gia sư Thông minh (ITS) và Dữ liệu ánh nhìn (Eye-tracking), nghiên cứu triển khai thực nghiệm lâm sàng nhằm tháo gỡ các rào cản nhận thức đặc thù của trẻ Rối loạn Phổ Tự kỷ.

Thông tin Thực nghiệm:

Đối tượng: N = 45 trẻ tự kỷ (3-6 tuổi), đã được chẩn đoán y tế.
Thời lượng: 12 tuần liên tục (3 phiên/tuần, 20 phút/phiên).
Thành phần tham gia: Trẻ em (Người dùng), Chuyên gia tâm lý/Giáo viên (Giám sát), Hệ thống ITS (Điều phối & Can thiệp tự động).

Chọn Trường hợp Can thiệp (Menu Cấp 3):

1. Cơ học mở khóa Xã hội (Social Unlocking)

2. Khắc phục Thiên vị Thị giác (Gaze Bias)

3. Đồng bộ Ánh nhìn & Hành động (Joint Attention)

Mô hình Tương tác Lâm sàng (Clinical Triad)

VII.1. TRƯỜNG HỢP 1: CƠ HỌC MỞ KHÓA XÃ HỘI

57/83

Chuyển hóa Sở thích Đặc biệt

Sử dụng xu hướng "siêu hệ thống hóa" (thích các quy luật vật lý, nút bấm) làm cầu nối để dẫn dắt ánh nhìn của trẻ vào các kích thích xã hội (khuôn mặt, biểu cảm).

Kết quả Đo lường:

Đầu vào (Baseline - Tuần 1): Tỷ lệ dừng mắt (Dwell Time) trên khuôn mặt chỉ đạt trung bình 15%. Phản ứng lảng tránh cao.
Giữa kỳ (Tuần 6): Hệ thống ITS thiết lập vòng lặp "Bấm nút → Hiện mặt cười". Ánh nhìn dần dịch chuyển theo luật nhân quả, đạt 42%.
Đầu ra (Post-test - Tuần 12): Tỷ lệ Dwell Time duy trì ổn định ở mức 68% ngay cả khi gỡ bỏ nút bấm cơ học. Trẻ hình thành được sự dung nạp với kích thích xã hội.

Đồ thị Tăng trưởng Dwell Time trên Khuôn mặt

VII.2. TRƯỜNG HỢP 2: KHẮC PHỤC THIÊN VỊ THỊ GIÁC (GAZE BIAS)

58/83

Mở rộng Phạm vi Quét (Visual Field)

Trẻ ASD thường phát triển các "vùng an toàn thị giác" hẹp (ví dụ: chỉ nhìn nửa trái màn hình), bỏ qua các thông tin quan trọng nằm ngoài vùng này. Can thiệp nhằm phá vỡ thói quen này thông qua mồi nhử thị giác.

Kết quả Đo lường:

Tuần 1: Tỷ lệ bao phủ (Area Coverage) chỉ chiếm ~25% diện tích màn hình. Saccade ngắn, co cụm.
Can thiệp: ITS sử dụng thuật toán "Kéo giãn": Di chuyển các mục tiêu hấp dẫn (đốm sáng, đồ chơi ưa thích) nhích dần ra khỏi vùng an toàn 2-3 độ góc nhìn mỗi phiên.
Tuần 12: Biên độ Saccade tăng lên, vùng quét bao phủ >80% không gian học tập. Trẻ linh hoạt hơn trong việc định hướng chú ý.

Mô phỏng: Mở rộng Vùng Bao phủ (Area Coverage)

VII.3. TRƯỜNG HỢP 3: ĐỒNG BỘ ÁNH NHÌN VÀ HÀNH ĐỘNG

59/83

Tái thiết lập "Chú ý chung" (Joint Attention)

Khắc phục hiện tượng giao tiếp "mù" (chỉ tương tác vật lý bằng tay nhưng ánh mắt không hướng về đối tượng). ITS thiết lập quy tắc: Hành động chỉ mang lại kết quả khi Ánh mắt đồng bộ.

Kết quả Đo lường:

Tần suất "Giao tiếp mù": Ở giai đoạn Baseline, 72% các thao tác yêu cầu/nhận đồ vật diễn ra mà không có giao tiếp mắt (Eye-contact).
Can thiệp: Hệ thống phần mềm chỉ mở khóa (Unlock) phần thưởng/hoạt ảnh khi thuật toán PeyeMMV xác nhận tia nhìn của trẻ đã chạm vào đúng Vùng quan tâm (Khuôn mặt giáo viên/Vật thể chung).
Hội tụ: Sau 12 tuần, tỷ lệ tương tác có chủ đích (có Gaze-sync) tăng mạnh lên 85%. Thời gian trễ (Latency) giữa hành động tay và tia nhìn rút ngắn đáng kể.

Tỷ lệ Tương tác Đồng bộ (Gaze-Sync)

VII. ĐÁNH GIÁ LÂM SÀNG: CƠ HỌC MỞ KHÓA XÃ HỘI (1/2)

56/79

Vượt Qua Kỳ Vọng Chuyên Gia

Trong can thiệp truyền thống, việc ép trẻ RLPTK nhìn vào khuôn mặt thường gây phản ứng lảng tránh. Chuyên gia dự đoán sự cải thiện sẽ rất chậm.

Tổng Dwell Time trên Khuôn mặt:

Baseline (Tuần 1): 15% thời lượng.
Dự đoán (12 tuần): Đạt mức 35-40%.
Hệ thống ITS đạt: Đạt mức 68%.
Kết luận: Mồi nhử cơ học đã giúp não bộ tiếp nhận khuôn mặt như một phần thưởng thay vì mối đe dọa.

Khoảng cách Hiệu quả (Efficacy Gap)

VII. ĐÁNH GIÁ LÂM SÀNG: CƠ HỌC MỞ KHÓA XÃ HỘI (2/2)

57/79

Đồ thị Phân kỳ Kỹ năng

Biểu đồ theo dõi tiến độ qua 12 tuần cho thấy sự khác biệt về quỹ đạo tăng trưởng:

Đường xám (Chuyên gia): Dự đoán tăng trưởng tuyến tính, chậm rãi vì trẻ cần thời gian dài để "chịu đựng" với khuôn mặt.
Đường xanh (ITS): Tăng trưởng theo hàm mũ. Ở tuần thứ 4, khi não bộ trẻ liên kết thành công "Nút bấm = Phần thưởng", thời lượng chú ý bùng nổ và duy trì ổn định.

VII. ĐÁNH GIÁ LÂM SÀNG: KHẮC PHỤC GAZE BIAS (2/2)

58/79

Phân bố Không gian (Fixation Scatter)

Mô phỏng bề mặt màn hình hiển thị trong quá trình làm bài test sau 12 tuần:

Cụm nét đứt (Dự đoán): Chuyên gia cho rằng trẻ chỉ nới rộng được vùng nhìn ra khu vực giữa (Center bias).
Cụm hồng (Thực tế): Các điểm dừng mắt phân tán đều đặn khắp 4 góc màn hình. Trẻ không còn bỏ sót thông tin, năng lực thu thập dữ liệu thị giác phục hồi toàn diện.

VII. ĐÁNH GIÁ LÂM SÀNG: ĐỒNG BỘ ÁNH NHÌN (1/2)

59/79

Xóa Bỏ "Giao Tiếp Mù"

Khắc phục hiện tượng giao tiếp "mù" bằng quy tắc phần mềm: Bấm chuột (tay) chỉ có tác dụng khi mắt đang nhìn đúng vào đối tượng.

Độ trễ Mắt - Tay (Latency):

Baseline: Độ trễ cực cao (Mắt nhìn đi chỗ khác khi tay đang thao tác).
Dự đoán: Giảm trễ 30-40% sau 3 tháng nhắc nhở thủ công.
Hệ thống ITS đạt: Giảm trễ tới 75%.
Kết luận: "Khóa phần mềm" buộc bộ não trẻ tự hiệu chỉnh hệ thần kinh vận động - thị giác cực kỳ hiệu quả.

Thời gian trễ Giữa Mắt và Tay (Đơn vị: ms)

Phương pháp 2 – Hỗ trợ Trẻ Khó Tính toán/Đọc

60/79

Tổng quan

Xây dựng Đồ thị Phụ thuộc Phân tích Nhiệm vụ (TAD): Một đồ thị có hướng không chu trình G_TAD = (V, E) biểu diễn phân cấp các kỹ năng.

Cơ chế suy luận logic

IF (x > y) THEN
Trạng thái hành vi = Phân tán sự chú ý

trong đó:

x: thời lượng điểm dừng trung bình trên các vùng nhiễu,

y: ngưỡng thời gian được xác định trước.

Cấu trúc Hai Vòng lặp

61/79

Vòng lặp trong (Inner Loop)

Mục tiêu

Xử lý khó khăn ngắn hạn bằng cách giảm tải nhận thức ngoại lai.

Cơ chế

Tự động hạ cấp độ khó trình bày của câu hỏi khi trẻ sai: Từ loại Tự luận (A) -> Câu hỏi có cấu trúc (B) -> Dạng nhận diện kéo-thả (C) -> Dạng đơn giản Đúng/Sai (D).

Vòng lặp ngoài (Outer Loop)

Mục tiêu

Chẩn đoán và khắc phục thiếu hụt kỹ năng nền tảng (tải nội tại).

Cơ chế

Liên tục cập nhật mô hình Bayesian Knowledge Tracing (BKT) và kích hoạt "Truy vết ngược" (Backtracking) dọc theo đồ thị TAD để tìm ra nút kỹ năng gốc bị hỏng.

Thực nghiệm

62/79

Đánh giá trên 3 học sinh có nguy cơ khó đọc:
P1 (Phương pháp 2 vòng lặp), P2 (Hệ thống ITS thông thường), P3 (Học trên giấy truyền thống).

Kết quả điểm số:
P1 tăng vọt 95%, P2 tăng 54.7%, P3 chỉ tăng 26.3%.

Kết luận:
Sự kết hợp giữa giảm độ khó định dạng và truy vết nguyên nhân nền tảng mang lại hiệu quả cao nhất.

Phương pháp 3 - Khung tính toán với mạng DBN

63/79

Động lực:

Việc chỉ dựa vào các trạng thái tức thời không phản ánh được sự biến đổi liên tục trong quá trình nhận thức.

Đề xuất:

Sử dụng Mạng Bayes Động (Dynamic Bayesian Network – DBN) để mô hình hóa và theo dõi xác suất phát triển kỹ năng theo trục thời gian thực.

Mô tả chi tiết:

Sử dụng đặc trưng hành vi tổng hợp (như độ chính xác và cả thời gian mất phản hồi) để cập nhật xác suất thành thạo tại mỗi nút trong mạng.

Hệ thống có khả năng phân loại bản chất của khó khăn:

Khuyết kiến thức: Trả lời sai -> Cung cấp lại bài tập nền tảng.

Thiếu độ trôi chảy: Trả lời đúng nhưng tốn quá nhiều thời gian (ví dụ 8.2s) -> Cung cấp bài luyện tập phản xạ nhanh.

Kiến trúc hệ thống (sẽ cập nhật hình thật)

V. KẾT QUẢ THỰC NGHIỆM HỆ THỐNG ITS

64/79

Sự cải thiện về khả năng nhận thức (EzMath / EzRead)

Thực nghiệm Single-Subject thiết kế riêng biệt kéo dài từ 4 - 8 tuần. Đánh giá đối chiếu giữa Nhóm A (Can thiệp Truyền thống) và Nhóm B (Sử dụng hệ thống Vòng lặp kép ITS).

Độ ổn định phản hồi

RTV = √( ∑(t_i - μ)² / N )

Nhóm B duy trì tốc độ bật đáp án trôi chảy, ổn định mức ~1200ms. Nhóm A biến thiên thất thường.

Hệ số chuyển giao

0.85

So với 0.35 của Nhóm A. Chứng tỏ khả năng ứng dụng logic vào bài mới nhờ lấp lỗ hổng trên đồ thị DAG.

Tăng trưởng điểm

+49 pts

Tất cả học sinh tăng vọt điểm chuẩn đầu ra (từ 8 đến 49 điểm) với thời gian ôn tập ít hơn 60%.

VI. TỔNG KẾT BỐN ĐÓNG GÓP KHOA HỌC

65/79

1. Hạ tầng dữ liệu

Thiết lập cơ sở dữ liệu đa phương thức (Mắt, Tương tác, Audio) đồng bộ thời gian thực cho trẻ RLPT đầu tiên tại Việt Nam.

2. Thuật toán trích xuất

Phát triển thuật toán PeyeMMV lọc nhiễu I-DT và ứng dụng SAM Zero-shot giải quyết nút thắt AOI động, giảm 96% thời gian xử lý.

3. Mô hình toán học

Số hóa giả thuyết trừu tượng thành công thức: Chỉ số $SQ_{visual}$, Tỷ lệ Đoán mò $R_{dwell}$, đồ thị DAG và mạng Bayesian (DBN).

4. Kiến trúc hệ thống

Xây dựng kiến trúc ITS Vòng lặp kép khép kín. Triển khai 3 hệ thống can thiệp thực tiễn (EzMath, EzRead, Monitor ASD).

Phương pháp hỗ trợ khác

66/79

PHƯƠNG PHÁP HỖ TRỢ KHÁC

Các phương pháp hỗ trợ khác (Chương 5)

67/79

Xác định vấn đề:

Các phương pháp truyền thống dựa trên học liệu giấy có tính cố định, khó điều chỉnh linh hoạt theo năng lực tiếp nhận thông tin của trẻ tại thời điểm tương tác.

Yêu cầu:

Tái kiến trúc các mô hình tương tác nhằm hiệu chỉnh động; tối giản hóa thao tác và kiểm soát tải nhận thức ngoại lai cho trẻ có rối loạn phát triển.

Mục tiêu:

Xây dựng hệ thống hỗ trợ đa nền tảng (Web và di động) tích hợp cơ chế cá nhân hóa trải nghiệm học tập dựa trên hồ sơ nhận thức riêng biệt của mỗi trẻ.

Thực nghiệm

71/79

Khảo sát chuyên gia (n=73): 91% đánh giá tích cực về thiết kế tổng thể.

Chỉ số đánh giá: Kiểm soát hiển thị (4.1–4.9/5); Hỗ trợ đa phương thức (4.6–4.8/5).

Luận điểm khẳng định: Kiểm soát tải nhận thức và tối giản thao tác vật lý tác động trực tiếp đến hiệu quả tương tác của trẻ.

Thực nghiệm

72/79

Kỹ năng Cộng: Tăng mạnh từ 3.6 lên 7.9; duy trì ổn định sau 6 tuần.
Kỹ năng Trừ: Đạt 7.9 (nhóm thực nghiệm) so với 7.1 (nhóm đối chứng) nhờ mô phỏng trực quan.
Kỹ năng So sánh: Tăng từ 4.9 lên 6.3; hỗ trợ tốt ghi nhớ dài hạn.
Kỹ năng Đếm: Ghi nhận cải thiện tích cực, củng cố năng lực số học nền tảng.

Thực nghiệm

76/79

Lượng hóa qua 12 mục tiêu (MT) chia thành 3 nhóm:

1. Đọc thành tiếng (MT1-MT5).

2. Khả năng đọc hiểu (MT6-MT8).

3. Thái độ và tham gia (MT9-MT12).

Kết quả Cải thiện Hành vi và Năng lực (EzRead)

Giảm mật độ ký tự giúp kiểm soát nhiễu loạn thị giác, giảm các biểu hiện căng thẳng sinh lý (nhíu mày, dụi mắt).

MT9 (Hăng hái) và MT11 (Theo dõi chú ý) cải thiện rõ rệt nhờ sự phối hợp đa phương thức và vòng lặp phản hồi vi mô.

VIII. TRIỂN KHAI 2: NỀN TẢNG HỌC TOÁN THÔNG MINH EZMATH

68/79

Hệ Sinh Thái Học Tập Thích Ứng

EzMath là hiện thực hóa của kiến trúc ITS Vòng lặp kép, được thiết kế đặc biệt cho học sinh tiểu học và trẻ Khó tính toán (Dyscalculia). Nền tảng tự động số hóa toàn bộ quá trình nhận thức của học sinh.

Các Trụ cột Công nghệ (Menu Cấp 3):

1. Phân rã và Khớp nối Kỹ năng (Skill Mapping)

2. Khung Hỗ trợ Đa phương thức (Scaffolding)

Kiến trúc Dữ liệu Nền tảng EzMath

VIII.1. EZMATH: PHÂN RÃ VÀ KHỚP NỐI KỸ NĂNG (SKILL MAPPING)

69/79

Lý thuyết Không gian Kiến thức

Thay vì đánh giá chung chung "Học sinh học kém Toán", EzMath chia nhỏ môn Toán tiểu học thành một **Ma trận kỹ năng nguyên tử (Atomic Skills)**.

Lập bản đồ Năng lực (Knowledge Tracing):

Hệ thống thẻ (Tags): Mỗi bài tập trên EzMath được gắn tag kỹ năng cụ thể: Subitizing (Nhìn chớp nhoáng), Trục số, Phép cộng, Đếm tuần tự...
Radar Chart: Khi học sinh giải bài, AI liên tục cập nhật xác suất tinh thông (Mastery Probability) của từng kỹ năng.
Ý nghĩa: Giúp giáo viên nhìn thấu chính xác "lỗ hổng" cốt lõi. Ví dụ: Trẻ làm sai phép cộng không phải do không hiểu phép cộng, mà do hổng kỹ năng "Đếm tuần tự".

Biểu đồ Năng lực Học sinh (Radar Chart)

VIII.2. EZMATH: HỖ TRỢ ĐA PHƯƠNG THỨC (SCAFFOLDING)

70/79

Cơ chế Nâng đỡ Nhận thức theo Cấp độ

Thay vì chỉ báo "Đúng/Sai", EzMath cung cấp hệ thống Scaffolding (Giàn giáo). Khi học sinh gặp khó khăn, hệ thống không giải hộ mà cung cấp các mức độ hỗ trợ (Hint) tăng dần, tùy theo áp lực nhận thức hiện tại đo được qua Eye-tracking.

Thang đo Cấp độ Hỗ trợ:

Cấp 1 (Audio): Đọc to lại đề bài hoặc gợi ý bằng âm thanh ("Con thử đếm lại xem").
Cấp 2 (Visual): Can thiệp giao diện thị giác. Làm mờ các chi tiết gây nhiễu, làm sáng (highlight) các con số hoặc vùng quan trọng.
Cấp 3 (Interactive): Hỗ trợ tương tác vật lý. Chia nhỏ bài toán, hiển thị các khối vật thể (Manipulatives) để trẻ dùng chuột kéo thả trực tiếp, biến trừu tượng thành trực quan.

Tháp Hỗ trợ Thích ứng (Adaptive Pyramid)

V. TRIỂN KHAI 3: ỨNG DỤNG MOBILE EZREAD

73/79

Phá Vỡ Rào Cản "Toán Lời Văn"

Nhiều trẻ không làm được bài không phải do kém Toán, mà do gặp khó khăn trong việc đọc hiểu và trích xuất dữ kiện. EzRead là ứng dụng di động mang sức mạnh của hệ thống ITS ra khỏi phòng lab, hỗ trợ trẻ học tập mọi lúc mọi nơi bằng công nghệ Thị giác Máy tính (Computer Vision) và NLP.

Quy trình Công nghệ cốt lõi (Menu Cấp 3):

1. Số hóa OCR & Phân tích Ngữ nghĩa (NLP)

2. Khung Hỗ trợ Đa phương thức (Scaffolding)

Mô hình Hoạt động EzRead App

V.1. EZREAD: SỐ HÓA VÀ PHÂN TÍCH NGỮ NGHĨA (OCR + NLP)

74/79

Trích xuất Dữ kiện Thông minh

Để hệ thống có thể can thiệp, bài toán trên giấy phải được "hiểu" bởi máy tính. EzRead kết hợp Nhận dạng Ký tự Quang học (OCR) và Xử lý Ngôn ngữ Tự nhiên (NLP).

Quy trình Kỹ thuật:

Bước 1 (OCR): Chụp ảnh từ SGK hoặc vở bài tập. Mô hình Deep Learning chuyển đổi hình ảnh thành văn bản kỹ thuật số với độ chính xác >98%.
Bước 2 (NLP NER): Nhận diện thực thể có tên (Named Entity Recognition). AI quét qua văn bản để bóc tách 3 nhóm cốt lõi: Đại lượng (Con số), Toán tử ngầm (thêm, bớt, chia đều), và Chủ ngữ/Vật thể.
Tác dụng: Biến một khối văn bản dài vô hồn thành một "cây cấu trúc dữ liệu toán học" sẵn sàng cho việc hỗ trợ tương tác.

Quá trình Bóc tách Ngữ nghĩa (NLP Parsing)

V.2. EZREAD: HỖ TRỢ ĐA PHƯƠNG THỨC (SCAFFOLDING)

75/79

Giảm Tải Nhận Thức Khi Đọc

Sau khi số hóa, EzRead cung cấp các "giàn giáo" (Scaffolds) tùy chỉnh để dẫn dắt sự chú ý của trẻ, giúp bộ não không bị quá tải khi xử lý văn bản dài.

Các Cấp độ Can thiệp:

L1 - Text-to-Speech (TTS): Đọc to đề bài với ngữ điệu tự nhiên, khắc phục hoàn toàn chứng Khó đọc (Dyslexia).
L2 - Bimodal Reading (Đồng bộ Âm-Hình): Chữ đổi màu (Highlight) khớp chính xác với tốc độ âm thanh đang phát, giúp mắt không bị trôi dạt.
L3 - Trực quan hóa Dữ kiện: Tự động tô đậm các con số (Đỏ) và từ khóa toán học (Xanh lá). Tách các câu ghép dài thành các dòng đơn ngắn gọn.

Mô phỏng: Bimodal Reading & Highlighting

VI. TỔNG KẾT BỐN ĐÓNG GÓP KHOA HỌC

77/79

1. Hạ tầng Dữ liệu

Thiết lập cơ sở dữ liệu đa phương thức (Mắt, Tương tác, Audio) đồng bộ thời gian thực cho trẻ RLPT đầu tiên tại Việt Nam.

2. Thuật toán Trích xuất

Phát triển thuật toán PeyeMMV lọc nhiễu I-DT và ứng dụng SAM Zero-shot giải quyết nút thắt AOI động, giảm 96% thời gian xử lý.

3. Mô hình Toán học

Số hóa giả thuyết trừu tượng thành công thức: Chỉ số $SQ_{visual}$, Tỷ lệ Đoán mò $R_{dwell}$, đồ thị DAG và mạng Bayesian (DBN).

4. Kiến trúc Hệ thống

Xây dựng kiến trúc ITS Vòng lặp kép khép kín. Triển khai 3 hệ thống can thiệp thực tiễn (EzMath, EzRead, Monitor ASD).

VI. HẠN CHẾ VÀ ĐỊNH HƯỚNG PHÁT TRIỂN

78/79

Hạn chế còn tồn tại

Quy mô dữ liệu: Cỡ mẫu huấn luyện Học máy còn khiêm tốn, mất cân bằng giới tính do đặc thù dịch tễ học của hội chứng tự kỉ.
Rào cản thiết bị: Hệ thống phụ thuộc vào phần cứng thu tín hiệu hồng ngoại chuyên dụng (Tobii) đắt tiền, cản trở triển khai đại trà trường công.
Khung thời gian: Các phân tích lâm sàng mới dừng ở mức trung hạn (1-3 tháng), cần nghiên cứu dọc (longitudinal) để đánh giá độ bền thần kinh.

Hướng phát triển tương lai

Phổ cập hóa AI: Huấn luyện các mạng Deep Learning siêu nhẹ (Lightweight Gaze Estimation) để theo dõi ánh nhìn qua Webcam phổ thông.
Tích hợp GenAI (LLMs): Dùng AI tạo sinh tự động tạo hình vẽ, đoạn văn dựa trên trạng thái lỗi thời gian thực $Z_{ij}$ của học sinh.
Mở rộng Sensor: Kết hợp thêm dữ liệu Điện não đồ (EEG) để khẳng định mức độ vỏ não của Giả thuyết Mắt-Tâm.

KẾT THÚC BÁO CÁO

79/79

Danh mục Công trình Khoa học

[1] Bài báo SCIE/Q1: Disability and Rehabilitation: Assistive Technology (2025).

[2] Tạp chí khoa học tự nhiên (2025).

[3] Hội nghị Quốc tế SOICT 2025 (2 bài).

[4] Hội nghị Quốc tế KSE 2025.

[5] Đơn xin cấp bằng Sáng chế: "Phương pháp và hệ thống cung cấp thông tin về sự chú ý thị giác" (Đã nộp).

XIN TRÂN TRỌNG CẢM ƠN HỘI ĐỒNG!

Q&A

BẢO VỆ LUẬN ÁN TIẾN SĨKHOA HỌC MÁY TÍNH

NGHIÊN CỨU VÀ PHÁT TRIỂN GIẢI PHÁPTHEO DÕI CHUYỂN ĐỘNG MẮTHỖ TRỢ TRẺ RỐI LOẠN PHÁT TRIỂN

Nghiên cứu sinh: Nguyễn Thị Quỳnh Hoa

Người hướng dẫn: PGS.TS. Lê Thanh Hà & TS. Ngô Thị Duyên

Bối cảnh

Lượng hóa cơ chế nhận thức

Giải phẫu Hành vi Thị giác & Dữ liệu Tính toán

Thực trạng & Thách thức Toàn cầu

Đặc trưng thị giác của trẻ RLPT

Khoảng trống liên ngành

Nhu cầu về tính diễn giải

Phân tích đặc trưng

Chẩn đoán

Can thiệp

Đánh giá

Quy trình thực hiện (Kitchenham & Charters):

Phạm vi và Phân loại:

Vai trò của bộ dữ liệu

Hạn chế thực thi dữ liệu

1. Dữ liệu về trẻ RLPT

2. Phân tích đặc trưng trong khung hình động

3. Phương pháp hỗ trợ chưa hiệu quả

Mục tiêu Nghiên cứu

Sự lệch pha Đa phương thức

Mô hình Căn chỉnh Thời gian (Time-Alignment)

Yêu cầu

Mục tiêu trọng tâm

Thiết kế kịch bản

Triển khai hệ thống

Đồng bộ & Hợp nhất

Bộ dữ liệu

Nhóm trẻ tự kỷ (ASD)

Nhóm trẻ khó tính toán

Thuyết Siêu hệ thống hóa (Hyper-Systemizing)

Thiết kế Kịch bản Lâm sàng: Đồ chơi "Gấu & Nút"

Minh họa kịch bản kích thích

Mô phỏng Bộ lọc Nhận thức & Xung đột

Mã hóa Dự đoán & Thuyết HIPPE

Kích thích Thực nghiệm: Jack-in-the-Box

Mô phỏng Cơ chế Quá tải Nhận thức

Học tập Tích cực (Nhóm TD)

Lảng tránh để Tự xoa dịu (Nhóm ASD)

Minh họa đáp trả lâm sàng

Mô phỏng Phân ly Quỹ đạo Ánh nhìn

1. Hình Nền Thị Giác (Figure-Ground)

2. Ký Hiệu Mũi Tên (Direction)

3. Tương Quan Vị Trí (Spatial)

4. Đếm dấu chấm (Subitizing vs Counting)

5. Nhận dạng số (Number Recognition)

6. Ánh xạ Không gian - Số học

Minh họa đường số

Mô phỏng Quỹ đạo Ánh nhìn Tìm kiếm

7. Đồng bộ Đa phương thức (A-V Sync)

Đo lường Độ trễ Phản hồi (Latency)

Mô hình Bù trừ Độ trễ (Latency)

Bản đồ Ánh xạ (Timeline Mapping)

II. KIẾN TRÚC HỆ THỐNG THU THẬP & ĐỒNG BỘ VÒNG KÍN

Giải pháp Kiến trúc Hệ thống

Sơ đồ Luồng Dữ liệu (Data Pipeline)

Mô hình Lưu trữ Dữ liệu Hợp nhất

Mô phỏng Cây Dữ liệu JSON (Data Tree)

Giải quyết Dữ liệu Bất đồng bộ

Sơ đồ Hợp nhất Đa phương thức

1. Ánh xạ Tần số (Frequency Mapping)

2. Bù trễ phần cứng & Tỷ lệ

Mô phỏng Khớp tần số (90Hz vs 60Hz)

Thực nghiệm: Môi trường thực hiện

Thực nghiệm: Đối tượng tham gia

Chuyển hóa Tọa độ thành Nhận thức

Mô phỏng Quỹ đạo Sinh học (Eye-tracking Scanpath)

Tính thực tiễn

Tính kỹ thuật

Vai trò nền tảng

Mô tả bài toán

Minh họa bài toán AOI động

Tổng quan

Giải pháp Đề xuất: PeyeMMV

Giải pháp Đề xuất: SAM

Cơ chế Phân cụm Dữ liệu 3 Bước

Mô phỏng Quá trình Biến đổi Dữ liệu

BẢO VỆ LUẬN ÁN TIẾN SĨ
KHOA HỌC MÁY TÍNH

NGHIÊN CỨU VÀ PHÁT TRIỂN GIẢI PHÁP
THEO DÕI CHUYỂN ĐỘNG MẮT
HỖ TRỢ TRẺ RỐI LOẠN PHÁT TRIỂN