Theo dõi chuyển động mắt (Eye-tracking) khắc phục rào cản quan sát chủ quan nhờ khả năng định lượng trực tiếp các cơ chế nhận thức vi mô thông qua các chỉ số cốt lõi:
Thiếu hụt một khung hiểu biết hệ thống về bản chất của dữ liệu liên ngành, dẫn đến tính ứng dụng thực tế còn hạn chế.
Nguyên nhân không nằm ở phần cứng mà ở sự thiếu hụt khung lý thuyết đồng bộ.
Các nghiên cứu hiện tại thường ứng dụng mô hình học máy thiếu tính diễn giải.
Trong bối cảnh lâm sàng, khả năng giải thích là yêu cầu tiên quyết để đảm bảo độ tin cậy trong chẩn đoán và can thiệp cho trẻ.
Sự cần thiết: Chuyển hóa các biểu hiện lâm sàng phức tạp thành các bài toán thành phần có thể giải quyết bằng tính toán. Do vậy, hệ thống hóa tài liệu đóng vai trò xác định các hướng nghiên cứu trọng tâm thay vì chỉ tổng hợp đơn thuần.
Mục tiêu: Tạo ra nền tảng lý thuyết vững chắc cho các thuật toán đề xuất ở giai đoạn sau của luận án.
4 hướng nghiên cứu chính
Trích xuất và định lượng các mẫu hành vi thị giác vi mô.
Sử dụng dữ liệu thị giác để nhận diện sớm các dấu hiệu.
Điều hướng sự chú ý & tối ưu hóa giao diện tương tác.
Đo lường sự thay đổi nhận thức theo chuỗi thời gian.
Xác định: Truy vấn đa nguồn (PubMed, Google Scholar, Scopus, WoS, ACM).
Sàng lọc: Kiểm tra tiêu đề, tóm tắt theo tiêu chí mức độ liên quan.
Đánh giá: Phân tích toàn văn, loại bỏ trùng lặp và công trình không phù hợp.
Cơ sở dữ liệu: 170 (RLPTK) + 169 (Khó tính toán) + Tham chiếu (Khó đọc).
Ba hướng tiếp cận: (1) Phân tích đặc trưng, (2) Chẩn đoán, (3) Can thiệp và Đánh giá.
Quá trình hệ thống hóa chỉ ra rằng tập dữ liệu (Data sets) chính là rào cản cốt lõi quyết định hiệu quả của các mô hình.
Năng lực của thuật toán chịu sự giới hạn trực tiếp từ chất lượng và tính chuẩn hóa của dữ liệu chuỗi thời gian đầu vào.
Về thu thập: Phương pháp kiểm thử trực tiếp tạo ra tập dữ liệu nhỏ, nhiều nhiễu, hạn chế khả năng tổng quát hóa.
Về xử lý: Gán nhãn thủ công dữ liệu động (video) tốn nguồn lực khổng lồ, gây thiếu hụt dữ liệu huấn luyện.
Lệch pha (Desync): Mắt (liên tục), Chuột (rời rạc) và Âm thanh hoạt động trên các xung nhịp khác nhau. Nếu không căn chỉnh cùng trục thời gian (T₀), không thể phân tích quan hệ Nghe-Nhìn.
Nhiễu: Dữ liệu y sinh ở trẻ có độ nhiễu cao do rung lắc đầu.
Kích thích video có nhiều đối tượng di chuyển, biến dạng liên tục. Việc vẽ đa giác khoanh Vùng quan tâm (AOI) thủ công cho từng khung hình là nút thắt cổ chai về hiệu suất.
Thiếu vắng các mô hình Toán học/Xác suất để chuyển đổi dữ liệu tọa độ (x,y) thành "chiến lược nhận thức" (ngữ nghĩa). Khoảng trống trong việc xây dựng hệ thống thích ứng.
Chuyển hóa nhu cầu lâm sàng thành bài toán kỹ thuật hợp nhất dữ liệu (Data Fusion).
|
Bộ dữ liệu / Mô hình nghiên cứu |
Đối tượng mục tiêu chính |
Mô hình phần cứng / thiết bị theo dõi mắt |
Tần số lấy mẫu |
Thiết lập / Môi trường thí nghiệm |
|---|---|---|---|---|
| Tập dữ liệu CopCo 23 | Chứng khó đọc / Người lớn (ngôn ngữ thứ hai) | EyeLink 1000 Plus | 1000 Hz | Phòng thí nghiệm độ chính xác cao |
| ETDD70 23 | Chứng khó đọc (9–10 tuổi) | Điều khiển từ xa SMI RED | 250 Hz | Phòng thí nghiệm được kiểm soát |
| Dự án DIDUNAS | Nguy cơ mắc chứng khó tính toán (lớp 1) | Tobii Pro X3-120 (Thông thường) | 120 Hz | Trường học / Môi trường được kiểm soát |
| Saliency4ASD 3 | Trẻ em mắc chứng tự kỷ và trẻ em phát triển bình thường | Điện thoại di động SMI RED | 60 Hz | Phòng thí nghiệm, màn hình 17 inch, khoảng cách 60 cm |
| Bộ dữ liệu Serbia 15 | Chứng khó đọc (7–13 tuổi) | Bộ theo dõi hai chế độ không xác định | 30 Hz & 60 Hz | Cấu hình màu được kiểm soát |
| Sàng lọc máy tính bảng 16 | Chứng khó đọc (8–13 tuổi) | Galaxy Tab S5e (VisualCamp SeeSo) | ~30 Hz | Môi trường sinh thái / Trường học |
| Đọc WebGazer 33 | Rối loạn thần kinh khác biệt (ADHD, ASD) | Webcam tiêu chuẩn (WebGazer SDK) | ~30 Hz | Giáo dục từ xa / trực tuyến |
Quy trình xây dựng bộ dữ liệu đa phương thức được thực hiện qua 4 bước:
Tích hợp kích thích thị giác & tương tác
Thiết lập phần cứng & kiến trúc luồng
Kỹ thuật Master Clock & Data Fusion
Lưu trữ và chuẩn hóa đầu ra
Sơ đồ: Quy trình 4 bước xây dựng bộ dữ liệu.
Do sự khác biệt về biểu hiện lâm sàng, kịch bản được chia làm 2 nhánh chuyên biệt:
Não bộ trẻ RLPTK được ví như những cỗ máy "siêu hệ thống hóa", luôn tìm kiếm các quy luật: Đầu vào → Quy tắc → Đầu ra.
Não bộ liên tục dự đoán tương lai. Lỗi dự đoán xảy ra khi thực tế khác với kỳ vọng. Thuyết HIPPE (High Inflexible Precision of Prediction Errors) cho rằng não bộ RLPTK gán trọng số cực cao cho mọi sai lệch, dù là nhỏ nhất.
Não bộ điển hình xử lý "sự bất ngờ" (chú hề bật ra) như một tín hiệu học tập tích cực. Nó kích hoạt hệ thống Dopamine, tạo ra sự tò mò và thu hút ánh nhìn (Fixation) trực tiếp vào khuôn mặt 3D để khám phá.
Với hệ thống HIPPE, sự bất ngờ trở thành một Lỗi khổng lồ gây lo âu tột độ. Cơ chế phòng vệ được kích hoạt:
Đánh giá khả năng bóc tách thông tin quan trọng (số, hình học) ra khỏi các nhiễu nền xung quanh. Đây là tiền đề quan trọng giúp trẻ không bị nhìn nhảy dòng hay nhầm lẫn các con số khi đặt tính.
Kiểm tra năng lực định hướng không gian (Trái/Phải, Lên/Xuống). Sự nhạy bén với hướng của mũi tên là cơ sở để trẻ hiểu về sự tăng/giảm trên trục số và các phép tính có hướng.
Đánh giá khả năng phân biệt vị trí tương đối giữa các vật thể (Ví dụ: Hình tròn nằm bên trong hay bên ngoài chiếc hộp). Đây là yếu tố cốt lõi của tư duy hình học và phân số.
Subitizing là khả năng nhận diện ngay lập tức số lượng nhỏ (1-4) mà không cần đếm. Trẻ khó tính toán thường mất khả năng này và phải đếm từng điểm một.
Yêu cầu trẻ tìm một số cụ thể lẫn lộn giữa các chữ cái hoặc ký hiệu có hình dáng tương đồng, ví dụ số 5 lẫn với chữ S hoặc số 2.
Khả năng ước lượng vị trí của một số trên trục là biểu hiện rõ nhất của "Mental Number Line". Thử nghiệm chia làm 3 phiên bản độ khó tăng dần.
Não bộ cần đồng bộ hóa âm thanh nghe được (phonological) với hình ảnh trực quan (visual) của con số.
Luồng xử lý mô-đun: Kiến trúc hệ thống tích hợp chặt chẽ giữa phần cứng (thiết bị theo dõi mắt Eye-tracker) và một ngăn xếp phần mềm chuyên dụng để phân tích hành vi thị giác của trẻ Rối loạn Phổ Tự kỷ.
Các tiến trình cốt lõi: Cung cấp kích thích thị giác (Visual stimuli) → Ghi nhận chuyển động mắt → Tiền xử lý dữ liệu → Nhận dạng Vùng quan tâm (AOI) bằng AI → Trích xuất đặc trưng và Phân loại tự động.
Tùy biến cho nhận thức số học: Hệ thống được thiết kế chuyên biệt để ghi nhận phản xạ của trẻ Dyscalculia khi tương tác trực tiếp với các bài tập toán học, trục số và không gian trên màn hình máy tính.
Ánh xạ và Trực quan hóa: Luồng dữ liệu cho phép liên kết tọa độ ánh nhìn của trẻ với các tương tác phần mềm, từ đó xuất ra các Bản đồ nhiệt (Heatmap) và Quỹ đạo quét mắt (Scanpath) chi tiết để chẩn đoán chiến lược nhận thức.
Dù có Master Clock, bản thân phần cứng vẫn có độ trễ truyền tín hiệu. Thuật toán xử lý dữ liệu phải áp dụng các công thức chuẩn hóa ngược:
1. Đồng bộ Eye-tracking & Chuột:
2. Bù đắp độ trễ phần cứng hiển thị Video (δ):
3. Khung thời gian Audio tương đối:
Xây dựng một kiến trúc End-to-End để ép buộc các thiết bị hoạt động ở các xung nhịp khác nhau ghi dữ liệu lên một Master Clock duy nhất.
| Loại dữ liệu | Các tham số chính | Định dạng lưu trữ |
|---|---|---|
| Hành vi mắt | Điểm dừng (Fixations), Chuyển động đảo mắt (Saccades), Quỹ đạo (Gaze paths), Kích thước đồng tử | CSV / JSON (Chuỗi thời gian) |
| Tương tác vật lý | Click stream, Mouse trajectory, Keyboard logs, Thời gian phản hồi | Log events (Rời rạc) |
| Ngữ cảnh & Kích thích | Audio stimuli timestamps, Task status (Đúng/Sai), Trạng thái màn hình | Structured metadata |
Để giải quyết sự không đồng nhất, dữ liệu được tổ chức thành cấu trúc cây phân cấp (JSON), đảm bảo mọi tín hiệu đều tham chiếu đến mốc thời gian tuyệt đối T₀.
1. Chuỗi Thời gian (Time-series): Tọa độ Mắt
E = { e₁, e₂, ..., eₙ } với eᵢ = (tᵢ, xᵢ, yᵢ)
2. Chuỗi Sự kiện (Event-driven): Chuột / Phím
V = { ε, P_cursor, Ω, tₑ }
(ε: Loại sự kiện, Ω: Nhãn ngữ nghĩa nút bấm)
3. Khoảng thời gian (Interval): Audio Metadata
A = [ t_onset, t_offset ]
Các thiết bị hoạt động độc lập: Mắt gửi tọa độ liên tục (90Hz), Chuột chỉ gửi khi click (thưa thớt), Audio gửi theo bộ đệm. Luận án giải quyết bằng Cơ chế Hàng đợi và Đóng dấu thời gian (Timestamping).
Thiết bị Mắt lấy mẫu ở 90Hz (~11.1ms), trong khi Video hiển thị ở 60Hz (~16.67ms). Hệ thống sử dụng véc-tơ dữ liệu thời gian khung hình Vₜ = {t₁, t₂, ..., tₙ} để ánh xạ chính xác 1:1 tọa độ mắt eᵢ vào đúng khung hình chứa nó:
Bù trừ độ trễ khởi tạo bộ mã hóa Video (δ) để căn chỉnh với trục T₀ [cite: 1004, 1005], đồng thời nhân hệ số Scale (S) để khớp tọa độ cảm biến vật lý với độ phân giải màn hình W × H [cite: 936, 937, 950]:
Hệ thống được mang trực tiếp đến các trung tâm giáo dục đặc biệt và trường học, đảm bảo trẻ được kiểm thử trong không gian quen thuộc, giảm thiểu áp lực tâm lý.
Sau quá trình thu thập thực tế, luận án đã xây dựng được một bộ dữ liệu lớn với các thông số nổi bật:
Tổng kích thước dữ liệu hợp nhất
Lượt trình bày nhiệm vụ kích thích
Điểm dừng (Fixations) trung bình/phiên
| Đặc điểm | Một phiên | Toàn bộ bộ dữ liệu (660 phiên) |
|---|---|---|
| Thời lượng kích thích thị giác | ~78 giây (1,3 phút) | ~51.480 giây (~14,3 giờ) |
| Thời lượng phiên thực tế | 20–30 phút | ~1.375–1.925 giờ |
| Tần số lấy mẫu | 90 Hz | 90 Hz |
| Số dòng dữ liệu (điểm gaze) | ~7.020 dòng | ~4.633.200 dòng (~4,6 triệu) |
| Kích thước file ET.json | ~500 KB | ~330 MB |
| Kích thước file sync_data.csv | ~700 KB | ~462 MB |
| Tổng kích thước bộ dữ liệu | ~1,2 MB | ~792 MB |
| Số điểm dừng (fixations) trung bình | ~200 fixations | ~132.000 fixations |
| Số kích thích thị giác | 12 ảnh | 7.920 lượt trình chiếu |
| Ngưỡng dữ liệu hợp lệ | ≥ 70% | ≥ 70% |
| Đặc điểm | Một phiên | Toàn bộ bộ dữ liệu (82 phiên) |
|---|---|---|
| Thời lượng phiên | 342 giây (~5,7 phút) | ~28.000 giây (~7,8 giờ) |
| Tần số lấy mẫu trung bình | 68,7 Hz | 68,7 Hz |
| Số dòng dữ liệu (đồng bộ) | 23.508 dòng | ~1.930.000 dòng |
| Kích thước file ET.json | ~600 KB | ~49 MB |
| Kích thước file Mouse.json | ~50 KB | ~4 MB |
| Kích thước file âm thanh (.wav) | ~1,3 MB (11,5 giây) | ~107 MB |
| Kích thước file video màn hình (.avi) | ~25 MB | ~2,05 GB |
| Kích thước file CSV đồng bộ | 2,67 MB | ~219 MB |
| Tổng kích thước bộ dữ liệu | ~29,6 MB | ~2,43 GB |
| Số điểm dừng (fixations) trung bình | 33 fixations | ~2.700 fixations |
| Thời lượng audio trung bình | 11,52 giây | ~945 giây (~15,75 phút) |
| Độ phủ audio | 3,1% | 3,1% |
| Độ phủ dữ liệu chuột | 0,1% | Biến thiên (0,1–10%) |
| Số nhiệm vụ kích thích | 15 tác vụ | 1.230 lượt trình bày |
Dữ liệu thô (tọa độ x, y theo thời gian) không mang ý nghĩa lâm sàng cho đến khi được ánh xạ vào Vùng quan tâm (AOI) và chuyển hóa thành 3 dấu ấn sinh học cốt lõi:
Giải quyết rào cản về thiếu hụt dữ liệu chuẩn hóa trong nghiên cứu.
Đề xuất kiến trúc đồng bộ Master Clock và Data Fusion cho thiết bị giá thành thấp.
Tạo tiền đề để huấn luyện mô hình trích xuất đặc trưng và chẩn đoán (SVM, DBN) ở các chương tiếp theo.
| Thuật toán nhận dạng | Cơ chế phân loại chính | Phương pháp vận hành và trường hợp sử dụng |
|---|---|---|
| I-VT (Ngưỡng vận tốc) | Vận tốc góc giữa các điểm | Áp dụng ngưỡng vận tốc nghiêm ngặt; hiệu quả tính toán cao nhưng nhạy cảm với nhiễu cảm biến. |
| I-HMM (Mô hình Markov ẩn) | Phân tích chuyển đổi trạng thái dựa trên xác suất | Sử dụng mô hình thống kê hai trạng thái về phân bố vận tốc; có độ ổn định cao trong môi trường nhiễu. |
| I-DT (Ngưỡng phân tán) | Sự phân bố điểm không gian theo thời gian | Phân tích sự tán xạ hình học trong một cửa sổ thời gian di chuyển; rất tốt để xác định các điểm nhìn tập trung ổn định khi đọc. |
| I-MST (Cây bao trùm tối thiểu) | Lý thuyết đồ thị và tỷ lệ độ dài cạnh | Xây dựng cấu trúc cây và cắt các cạnh dài (chuyển động mắt nhanh) để cô lập các cụm điểm dày đặc (điểm nhìn cố định). |
| I-AOI (Khu vực quan tâm) | Giao điểm không gian với các vùng được xác định trước | Phân loại phụ thuộc vào ngữ cảnh; được sử dụng rộng rãi trong nghiên cứu UX để xác định xem các yếu tố giao diện người dùng cụ thể có được hiển thị hay không. |
| Loại kích thích | Phương pháp nhận dạng | Khả năng tái tạo | Mức độ lao động | Đánh giá của chuyên gia |
|---|---|---|---|---|
| Tĩnh | Vẽ tay | Thấp | Cao | Tránh sử dụng phương pháp này để so sánh giữa các nghiên cứu khác nhau. |
| Tĩnh | Voronoi / LRVT | Cao | Thấp | Tiêu chuẩn vàng cho phân tích tĩnh khách quan. |
| Năng động | Lập bản đồ ánh nhìn | Cao | Vừa phải | Thích hợp nhất cho việc cuộn hoặc di chuyển trên bề mặt phẳng. |
| Năng động | AutoAOI (Học sâu) | Vừa phải | Thấp | Cần thiết cho việc phân tích video quy mô lớn. |
| Tương tác | Dựa trên DOM | Rất cao | Rất thấp | Lý tưởng cho nghiên cứu UX và tối ưu hóa công cụ tìm kiếm. |
| 3D / VR | Chiếu tia | Cao | Thấp | Tiêu chuẩn tương tác; nhạy cảm với tiếng ồn. |
| 3D / VR | Đúc hình cầu | Cao | Thấp | Thích hợp nhất cho môi trường 3D phức tạp. |
| Lâm sàng | Căn chỉnh độ nổi bật | Rất cao | Thấp | Khả năng chẩn đoán cao nhờ trí tuệ nhân tạo. |
Tích hợp thuật toán phát hiện điểm dừng PeyeMMV và mô hình phân đoạn zero-shot Segment Anything Model (SAM) kết hợp luồng quang học.
Để vượt qua giới hạn của việc khoanh vùng thủ công, nghiên cứu ứng dụng Segment Anything Model (SAM) để tự động hóa gán nhãn AOI trong khung hình động.
Thuật toán không sử dụng vòng lặp logic (If/Else) đơn thuần, mà xử lý trực tiếp trên không gian hình học của tập điểm (x, y):
Thuật toán không sử dụng ngưỡng vận tốc, mà xử lý trực tiếp trên không gian hình học của tập điểm (x, y):
Để vượt qua giới hạn của việc khoanh vùng thủ công, nghiên cứu ứng dụng Segment Anything Model (SAM) - mô hình thị giác máy tính lõi từ Meta với hai đặc tính ưu việt:
Khác với ảnh tĩnh, video yêu cầu mô hình AI phải tự động bám sát đối tượng qua hàng ngàn khung hình liên tiếp. Cơ chế Prompt-and-Track tự động hóa hoàn toàn việc này qua 3 bước:
Trong môi trường video thực tế, trẻ rung lắc đầu hoặc vật thể di chuyển nhanh sẽ khiến khung theo dõi bị lệch. Nếu khung này chỉ khớp khít với vật thể ở khung hình trước, nó sẽ dễ dàng làm mất dấu vật thể ở khung hình sau.
Để đảm bảo tính khách quan và khoa học, hệ thống AI đề xuất được đánh giá thông qua một kiến trúc hai luồng song song trên tập dữ liệu video đã được lấy mẫu phân tầng.
Để khẳng định hệ thống AI có thể thay thế hoàn toàn con người trong việc phân vùng dữ liệu mắt, nghiên cứu sử dụng 3 thước đo:
1. Chỉ số Giao thoa (IoU - Intersection over Union)
Đánh giá mức độ chồng lấp không gian. IoU = (Diện tích Giao) / (Diện tích Hợp). IoU càng tiến gần đến 1, AI dự đoán càng sát với nhãn của chuyên gia.
2. Sai số Điểm ảnh (Pixel-level Error)
Đi sâu vào chi tiết vùng biên vật thể để tính toán tỷ lệ Phân loại sai (Gồm: Nhận diện thừa - False Positives, và Bỏ sót - False Negatives).
3. Hiệu suất Thời gian (Efficiency)
Bài toán tối ưu chi phí: So sánh trực tiếp tổng thời gian cần thiết để xử lý 1 phút video giữa lao động thủ công và hệ thống máy tính.
Kết quả cho thấy hệ thống AI đạt độ trùng khớp gần như hoàn hảo so với chuyên gia con người:
Giải quyết triệt để nút thắt cổ chai lớn nhất trong nghiên cứu Eye-tracking động:
| Khối chức năng trong Hệ thống Phân tích RLPTK | Vai trò và Mục tiêu Triển khai Kỹ thuật |
|---|---|
| Bộ Dữ liệu Kích thích Đa dạng | Xây dựng gồm 12 đối tượng sinh thái học (đồ chơi tương tác, con rối khuôn mặt, xe ô tô) nhằm khơi gợi đồng thời hành vi chú ý xã hội và vật lý. |
| Mô-đun Trực quan hóa Hành vi | Khởi tạo các bản đồ nhiệt (Heatmaps) đa sắc và đường quét (Scanpaths) từ đặc trưng chuyển động mắt để tái hiện chiến lược quan sát. |
| Mô-đun Học máy (Phân loại Tự động) | Ứng dụng bộ công cụ khai phá dữ liệu nạp trực tiếp vào mạng Support Vector Machine (SVM) nhằm tạo lập hàng rào kỹ thuật phân định giữa trẻ ASD và trẻ phát triển điển hình (TD). |
| Đặc điểm Thống kê So sánh | Phản ứng của Nhóm Điển hình (TD) | Phản ứng của Nhóm RLPTK (ASD) | Ý nghĩa Lâm sàng Đằng sau Dữ liệu |
|---|---|---|---|
| Số lượng Điểm dừng (Fixation Count) | Mật độ cao, quét diện rộng | Tần suất thấp, thiếu tính lặp lại | Khả năng khám phá thị giác ở trẻ ASD bị giới hạn |
| Thời lượng Duy trì (Duration) | Kéo dài liên tục trên vùng chứa ngữ nghĩa | Rời rạc, chu kỳ duy trì ngắn | Cơ chế chú ý điều hành suy yếu |
| Thời gian Tới đích Đầu tiên (TTFF) | Nhận diện nhanh kích thích xã hội | Độ trễ lớn, chậm định hướng | Bằng chứng định lượng về né tránh kích thích xã hội |
Mô hình Máy véc-tơ hỗ trợ (SVM) được đánh giá chéo (Cross-validation) trên không gian đặc trưng sinh học đa chiều để phân biệt trẻ mắc RLPTK và trẻ phát triển điển hình (TD).
Trong các bài kiểm tra trắc nghiệm, điểm số (đúng/sai) không phản ánh được quá trình tư duy (Cognitive Process). Trẻ có thể chọn đúng nhờ "đoán mò" ngẫu nhiên, hoặc chọn sai do tính toán nhầm một bước nhỏ dù đã rất nỗ lực.
Subitizing là khả năng sinh học bẩm sinh giúp não bộ con người nhận diện ngay lập tức số lượng nhỏ (từ 1 đến 4 vật thể) mà không cần phải thực hiện phép đếm. Trẻ mắc chứng Khó tính toán thường bị khiếm khuyết cơ chế lõi này.
Khả năng ánh xạ con số vào một không gian tuyến tính là bản năng của não bộ. Ở trẻ Dyscalculia, trục tọa độ này bị méo mó, dẫn đến việc mất phương hướng toán học.
Nhiều trẻ Dyscalculia có thể biểu diễn tính toán khi có đủ công cụ trực quan, nhưng lại gặp khó khăn nghiêm trọng trong việc lưu giữ thông tin toán học trong đầu để thao tác.
Bài kiểm tra thực tế sử dụng định dạng đa phương thức: Kết hợp văn bản, biểu tượng số và hỗ trợ đọc bằng âm thanh (biểu tượng chiếc loa). Mục tiêu là kiểm tra khả năng tích hợp thông tin của trẻ.
Giải quyết vấn đề nâng cao hiệu quả về độ chính xác và thời gian thực hiện xác định các đối tượng quan tâm trong những khung hình động.
Đề xuất phương pháp nhận diện sự kiện chuyển động mắt và phương pháp phát hiện vùng quan tâm, giúp ánh xạ điểm nhìn từ thông tin tọa độ thành các thông tin có ý nghĩa trên mỗi khung hình.
Tạo cơ sở diễn giải thông tin thị giác, hỗ trợ điều chỉnh can thiệp trong các chương sau; đồng thời làm tiền đề cho việc khai thác dữ liệu eye-tracking trong các bài toán cá nhân hóa và hỗ trợ ra quyết định.
Các phương pháp can thiệp hiện nay thường áp dụng theo mô hình chung, chưa đáp ứng được đặc điểm nhận thức riêng biệt của từng trẻ. Đồng thời, dữ liệu chuyển động mắt mới chỉ dùng để đánh giá kết quả sau cùng, chưa được tận dụng để điều phối tương tác học tập tức thời.
Cần tích hợp luồng dữ liệu thị giác khách quan vào hệ thống để tự động nhận diện khó khăn và cung cấp khuyến nghị điều chỉnh nội dung can thiệp kịp thời.
Nghiên cứu và phát triển các phương pháp ứng dụng eye-tracking nhằm phân tích hành vi và cá nhân hóa lộ trình can thiệp cho trẻ rối loạn phát triển.
Các phương pháp can thiệp thường áp dụng mô hình chung, chưa thích ứng với đặc điểm nhận thức riêng biệt của từng trẻ.
Dữ liệu mắt hiện chủ yếu dùng để đánh giá kết quả sau cùng, thay vì tận dụng để điều phối tương tác tức thời hoặc đưa ra khuyến nghị cá nhân hóa.
Thiếu hụt cơ chế ứng dụng đặc trưng chuyển động mắt để tối ưu hóa bài tập và lộ trình hỗ trợ dựa trên dữ liệu hành vi khách quan.
Thiết kế phương pháp can thiệp theo đặc điểm nhận thức của từng nhóm trẻ.
Áp dụng hệ thống luật (rule-based) tích hợp vào chu trình can thiệp 5 giai đoạn.
Áp dụng Lý thuyết tải nhận thức, thiết kế kiến trúc Hai vòng lặp (truy vết ngược đồ thị) và sử dụng Mạng Bayes động (DBN).
Trong đó:
x: thời lượng điểm dừng trung bình trên các vùng nhiễu,
y: ngưỡng thời gian được xác định trước.
| Tính năng của hệ thống | Bối cảnh 1: PECS Thiếu hụt chú ý xã hội |
Bối cảnh 2: TEACCH Sự tách rời nhận thức |
|---|---|---|
| Thông số đầu vào Giai đoạn 1 |
Thời gian dừng mắt trên AOI đối tác (mặt và tay) so với AOI thẻ PECS. | Tần suất và thời gian dừng mắt trung bình trên các AOI gây nhiễu ngoài không gian làm việc. |
| Cổng logic Giai đoạn 2 |
NẾU (Thời gian nhìn Đối tác < Ngưỡng) VÀ (Nhìn ra ngoài > Ngưỡng) THÌ Phân loại = "Trao đổi Xã hội bị lỗi". | NẾU (Thời gian nhìn Xao nhãng > Ngưỡng) HOẶC (Tập trung vào Task < Ngưỡng) THÌ Phân loại = "Rời bỏ Nhiệm vụ". |
| Đầu ra của hệ thống Giai đoạn 3 |
Cảnh báo: Chưa có tham chiếu xã hội. Yêu cầu trẻ "Nhìn" trước khi hoàn tất trao đổi. | Cảnh báo: Trôi dạt chú ý ([X] giây). Cần điều hướng bằng lời nói hoặc cử chỉ. |
| Ý nghĩa lâm sàng | Tránh trao đổi thẻ máy móc; đảm bảo duy trì tương tác xã hội trong giao thức. | Phân biệt khách quan giữa tạm dừng nhận thức và trôi dạt chú ý (hoặc cố ý không tuân thủ). |
| Chiều dữ liệu | Thông số | Logic / Ngưỡng điều kiện | Giải thích lâm sàng và khuyến nghị hệ thống |
|---|---|---|---|
| Sự chú ý tổng thể | Tỉ lệ nhìn (Màn hình so với ngoài màn hình) |
Giảm xuống dưới ngưỡng (< θengage) | Thiếu chú ý: Người dùng không còn duy trì chú ý thị giác vào không gian nhiệm vụ. Khuyến nghị: Cảnh báo chuyên gia trị liệu thực hiện tái tương tác thủ công và tạm dừng tiến trình bài học. |
| Ổn định hoặc tăng lên | Chú ý duy trì: Phát hiện sự chú ý được cải thiện. Khuyến nghị: Đánh giá lại lịch trình khen thưởng; có thể tăng thời lượng nhiệm vụ hoặc tăng cường chất lượng. | ||
| Chiến lược xử lý | Số lượng điểm dừng mắt so với thời lượng | Số lượng cao + thời lượng thấp | Quét quá mức (Bối rối): Cho thấy tình trạng quá tải nhận thức nghiêm trọng. Khuyến nghị: Chia nhỏ nhiệm vụ thành các bước nhỏ hơn; làm rõ các chỉ dẫn trực quan ngay lập tức. |
| Số lượng thấp + thời lượng cao | Xử lý sâu: Cho thấy hiệu quả xử lý cao. Khuyến nghị: Chuyển sang bậc độ khó tiếp theo. | ||
| Chú ý chọn lọc | Tỉ lệ mục tiêu so với vật gây nhiễu | Tập trung vào Vật gây nhiễu θdistract | Sự chọn lọc quá mức (Xao nhãng): Người dùng bị cuốn hút bởi các kích thích không thiết yếu. Khuyến nghị: Đơn giản hóa trường thị giác bằng các nguyên tắc TEACCH; tăng độ nổi bật của mục tiêu. |
| Tập trung mục tiêu > θdistract & vật gây nhiễu < θinhibit | Ức chế thành công: Chỉ số xác nhận hiệu quả thực hiện nhiệm vụ và kiểm soát nhận thức. Khuyến nghị: Duy trì mức độ tương phản hình ảnh hiện tại. | ||
| Sự thành thạo | Thời gian phản hồi so với độ chính xác | Độ chính xác cao + thời gian phản hồi lâu | Chính xác / Chưa thuần thục: Chính xác nhưng xử lý chậm, ngần ngại. Khuyến nghị: Tập trung vào sự trôi chảy và các bài tập lặp lại thay vì nâng cao các khái niệm mới. |
| Độ chính xác cao + thời gian phản hồi nhanh | Làm chủ / Trôi chảy: Kỹ năng đã hoàn toàn tự động hóa. Khuyến nghị: Giới thiệu các nhiệm vụ tổng quát hóa trong các môi trường khác nhau. |
Dựa trên nền tảng Hệ thống Gia sư Thông minh (ITS) và Dữ liệu ánh nhìn (Eye-tracking), nghiên cứu triển khai thực nghiệm lâm sàng nhằm tháo gỡ các rào cản nhận thức đặc thù của trẻ Rối loạn Phổ Tự kỷ.
Sử dụng xu hướng "siêu hệ thống hóa" (thích các quy luật vật lý, nút bấm) làm cầu nối để dẫn dắt ánh nhìn của trẻ vào các kích thích xã hội (khuôn mặt, biểu cảm).
Trẻ ASD thường phát triển các "vùng an toàn thị giác" hẹp (ví dụ: chỉ nhìn nửa trái màn hình), bỏ qua các thông tin quan trọng nằm ngoài vùng này. Can thiệp nhằm phá vỡ thói quen này thông qua mồi nhử thị giác.
Khắc phục hiện tượng giao tiếp "mù" (chỉ tương tác vật lý bằng tay nhưng ánh mắt không hướng về đối tượng). ITS thiết lập quy tắc: Hành động chỉ mang lại kết quả khi Ánh mắt đồng bộ.
Trong can thiệp truyền thống, việc ép trẻ RLPTK nhìn vào khuôn mặt thường gây phản ứng lảng tránh. Chuyên gia dự đoán sự cải thiện sẽ rất chậm.
Biểu đồ theo dõi tiến độ qua 12 tuần cho thấy sự khác biệt về quỹ đạo tăng trưởng:
Mô phỏng bề mặt màn hình hiển thị trong quá trình làm bài test sau 12 tuần:
Khắc phục hiện tượng giao tiếp "mù" bằng quy tắc phần mềm: Bấm chuột (tay) chỉ có tác dụng khi mắt đang nhìn đúng vào đối tượng.
Xây dựng Đồ thị Phụ thuộc Phân tích Nhiệm vụ (TAD): Một đồ thị có hướng không chu trình G_TAD = (V, E) biểu diễn phân cấp các kỹ năng.
IF (x > y) THEN
Trạng thái hành vi = Phân tán sự chú ý
trong đó:
x: thời lượng điểm dừng trung bình trên các vùng nhiễu,
y: ngưỡng thời gian được xác định trước.
Xử lý khó khăn ngắn hạn bằng cách giảm tải nhận thức ngoại lai.
Tự động hạ cấp độ khó trình bày của câu hỏi khi trẻ sai: Từ loại Tự luận (A) -> Câu hỏi có cấu trúc (B) -> Dạng nhận diện kéo-thả (C) -> Dạng đơn giản Đúng/Sai (D).
Chẩn đoán và khắc phục thiếu hụt kỹ năng nền tảng (tải nội tại).
Liên tục cập nhật mô hình Bayesian Knowledge Tracing (BKT) và kích hoạt "Truy vết ngược" (Backtracking) dọc theo đồ thị TAD để tìm ra nút kỹ năng gốc bị hỏng.
Đánh giá trên 3 học sinh có nguy cơ khó đọc:
P1 (Phương pháp 2 vòng lặp), P2 (Hệ thống ITS thông thường), P3 (Học trên giấy truyền thống).
Kết quả điểm số:
P1 tăng vọt 95%, P2 tăng 54.7%, P3 chỉ tăng 26.3%.
Kết luận:
Sự kết hợp giữa giảm độ khó định dạng và truy vết nguyên nhân nền tảng mang lại hiệu quả cao nhất.
Việc chỉ dựa vào các trạng thái tức thời không phản ánh được sự biến đổi liên tục trong quá trình nhận thức.
Sử dụng Mạng Bayes Động (Dynamic Bayesian Network – DBN) để mô hình hóa và theo dõi xác suất phát triển kỹ năng theo trục thời gian thực.
Sử dụng đặc trưng hành vi tổng hợp (như độ chính xác và cả thời gian mất phản hồi) để cập nhật xác suất thành thạo tại mỗi nút trong mạng.
Hệ thống có khả năng phân loại bản chất của khó khăn:
Khuyết kiến thức: Trả lời sai -> Cung cấp lại bài tập nền tảng.
Thiếu độ trôi chảy: Trả lời đúng nhưng tốn quá nhiều thời gian (ví dụ 8.2s) -> Cung cấp bài luyện tập phản xạ nhanh.
Kiến trúc hệ thống (sẽ cập nhật hình thật)
Thực nghiệm Single-Subject thiết kế riêng biệt kéo dài từ 4 - 8 tuần. Đánh giá đối chiếu giữa Nhóm A (Can thiệp Truyền thống) và Nhóm B (Sử dụng hệ thống Vòng lặp kép ITS).
Nhóm B duy trì tốc độ bật đáp án trôi chảy, ổn định mức ~1200ms. Nhóm A biến thiên thất thường.
So với 0.35 của Nhóm A. Chứng tỏ khả năng ứng dụng logic vào bài mới nhờ lấp lỗ hổng trên đồ thị DAG.
Tất cả học sinh tăng vọt điểm chuẩn đầu ra (từ 8 đến 49 điểm) với thời gian ôn tập ít hơn 60%.
Thiết lập cơ sở dữ liệu đa phương thức (Mắt, Tương tác, Audio) đồng bộ thời gian thực cho trẻ RLPT đầu tiên tại Việt Nam.
Phát triển thuật toán PeyeMMV lọc nhiễu I-DT và ứng dụng SAM Zero-shot giải quyết nút thắt AOI động, giảm 96% thời gian xử lý.
Số hóa giả thuyết trừu tượng thành công thức: Chỉ số $SQ_{visual}$, Tỷ lệ Đoán mò $R_{dwell}$, đồ thị DAG và mạng Bayesian (DBN).
Xây dựng kiến trúc ITS Vòng lặp kép khép kín. Triển khai 3 hệ thống can thiệp thực tiễn (EzMath, EzRead, Monitor ASD).
Các phương pháp truyền thống dựa trên học liệu giấy có tính cố định, khó điều chỉnh linh hoạt theo năng lực tiếp nhận thông tin của trẻ tại thời điểm tương tác.
Tái kiến trúc các mô hình tương tác nhằm hiệu chỉnh động; tối giản hóa thao tác và kiểm soát tải nhận thức ngoại lai cho trẻ có rối loạn phát triển.
Xây dựng hệ thống hỗ trợ đa nền tảng (Web và di động) tích hợp cơ chế cá nhân hóa trải nghiệm học tập dựa trên hồ sơ nhận thức riêng biệt của mỗi trẻ.
Khảo sát chuyên gia (n=73): 91% đánh giá tích cực về thiết kế tổng thể.
Chỉ số đánh giá: Kiểm soát hiển thị (4.1–4.9/5); Hỗ trợ đa phương thức (4.6–4.8/5).
Luận điểm khẳng định: Kiểm soát tải nhận thức và tối giản thao tác vật lý tác động trực tiếp đến hiệu quả tương tác của trẻ.
1. Đọc thành tiếng (MT1-MT5).
2. Khả năng đọc hiểu (MT6-MT8).
3. Thái độ và tham gia (MT9-MT12).
Giảm mật độ ký tự giúp kiểm soát nhiễu loạn thị giác, giảm các biểu hiện căng thẳng sinh lý (nhíu mày, dụi mắt).
MT9 (Hăng hái) và MT11 (Theo dõi chú ý) cải thiện rõ rệt nhờ sự phối hợp đa phương thức và vòng lặp phản hồi vi mô.
EzMath là hiện thực hóa của kiến trúc ITS Vòng lặp kép, được thiết kế đặc biệt cho học sinh tiểu học và trẻ Khó tính toán (Dyscalculia). Nền tảng tự động số hóa toàn bộ quá trình nhận thức của học sinh.
Thay vì đánh giá chung chung "Học sinh học kém Toán", EzMath chia nhỏ môn Toán tiểu học thành một **Ma trận kỹ năng nguyên tử (Atomic Skills)**.
Thay vì chỉ báo "Đúng/Sai", EzMath cung cấp hệ thống Scaffolding (Giàn giáo). Khi học sinh gặp khó khăn, hệ thống không giải hộ mà cung cấp các mức độ hỗ trợ (Hint) tăng dần, tùy theo áp lực nhận thức hiện tại đo được qua Eye-tracking.
Nhiều trẻ không làm được bài không phải do kém Toán, mà do gặp khó khăn trong việc đọc hiểu và trích xuất dữ kiện. EzRead là ứng dụng di động mang sức mạnh của hệ thống ITS ra khỏi phòng lab, hỗ trợ trẻ học tập mọi lúc mọi nơi bằng công nghệ Thị giác Máy tính (Computer Vision) và NLP.
Để hệ thống có thể can thiệp, bài toán trên giấy phải được "hiểu" bởi máy tính. EzRead kết hợp Nhận dạng Ký tự Quang học (OCR) và Xử lý Ngôn ngữ Tự nhiên (NLP).
Sau khi số hóa, EzRead cung cấp các "giàn giáo" (Scaffolds) tùy chỉnh để dẫn dắt sự chú ý của trẻ, giúp bộ não không bị quá tải khi xử lý văn bản dài.
Thiết lập cơ sở dữ liệu đa phương thức (Mắt, Tương tác, Audio) đồng bộ thời gian thực cho trẻ RLPT đầu tiên tại Việt Nam.
Phát triển thuật toán PeyeMMV lọc nhiễu I-DT và ứng dụng SAM Zero-shot giải quyết nút thắt AOI động, giảm 96% thời gian xử lý.
Số hóa giả thuyết trừu tượng thành công thức: Chỉ số $SQ_{visual}$, Tỷ lệ Đoán mò $R_{dwell}$, đồ thị DAG và mạng Bayesian (DBN).
Xây dựng kiến trúc ITS Vòng lặp kép khép kín. Triển khai 3 hệ thống can thiệp thực tiễn (EzMath, EzRead, Monitor ASD).
Q&A