Mục lục
Tóm tắt
Đặt vấn đề: Phân tích số liệu y tế là một xu hướng mới trong khoa học y tế, việc phát triển trí tuệ nhân tạo từ dữ liệu lâm sàng có sẵn, góp phần giúp bệnh nhân tiết kiệm chi phí khám bệnh. Tuy nhiên các dữ liệu y tế có thể chứa các đặc trưng dư thừa và nhiễu, đòi hỏi độ phức tạp tính toán cao làm cho việc xử lý bài toán hết sức khó khăn. Để giải quyết những vấn đề này, rút gọn đặc trưng là kỹ thuật phổ biến được sử dụng. Mục tiêu: Ứng dụng các kỹ thuật rút gọn đặc trưng vào bài toán phân tích dữ liệu y tế để lựa mô hình tối ưu trong hỗ trợ ra quyết định chẩn đoán bệnh. Phương pháp nghiên cứu: Bằng phương pháp thực nghiệm, tác giả sử dụng thuật toán Bayes chạy bộ số liệu bệnh tiểu đường có sẵn trên phần mềm R để loại đi các đặc trưng dư thừa. Kết quả: Lựa chọn được các đặc trưng tối ưu nhất để xây dựng mô hình tiên lượng xác suất mắc bệnh tiểu đường có tính phân loại tốt với độ nhạy đạt 80.60% và độ đặc hiệu là 93.26%. Kết luận: Nghiên cứu này đã sử dụng thuật toán Bayes trong rút gọn các đặc trưng để đưa vào mô hình hồi quy Logistic làm cho mô hình có độ phức tạp tính toán nhỏ hơn mô hình ban đầu mà không ảnh hưởng nhiều đến kết quả tiên lượng chẩn đoán. Đồng thời, nhóm tác giả cũng thực hiện đánh giá mô hình đã chọn bằng sử dụng ma trận hỗn hợp và đường cong ROC.
ĐẶT VẤN ĐỀ
Trong lĩnh vực khai phá dữ liệu, xử lý dữ liệu có số chiều cao lớn là một nhiệm vụ hết sức quan trọng. Hầu hết các thuật toán phân lớp hiện tại chỉ có thể xử lý một số lượng dữ liệu hữu hạn và dữ liệu này có số chiều thấp. Thêm vào đó, các dữ liệu y tế có thể chứa các đặc trưng dư thừa và nhiễu, đòi hỏi độ phức tạp tính toán cao làm cho việc xử lý bài toán hết sức khó khăn. Dữ liệu dư thừa và nhiễu có thể làm giảm độ chính xác trong việc phân lớp và dẫn đến những quyết định sai lầm. Để giải quyết những vấn đề này, rút gọn đặc trưng là kỹ thuật phổ biến được sử dụng.
Các kỹ thuật rút gọn đặc trưng đã được áp dụng rộng rãi trong nhiều ứng dụng khác nhau như: cho điểm tín dụng, tìm kiếm thông tin, phân lớp văn bản… Cộng đồng nghiên cứu tại Việt Nam đã quan tâm và công bố nhiều công trình khoa học liên quan tới học máy và khai phá dữ liệu. Tuy nhiên, hướng nghiên cứu về rút gọn đặc trưng chưa được quan tâm nhiều. Đặc biệt lĩnh vực rút gọn đặc trưng trong bài toán phân tích dữ liệu y tế còn rất hạn chế, cần được nghiên cứu và phát triển.
Trong nghiên cứu này, nhóm tác giả đã tìm hiểu các kỹ thuật rút gọn đặc trưng nói chung và các kỹ thuật rút gọn đặc trưng trong phân tích dữ liệu y tế nói riêng. Sau đó, áp dụng thuật toán Bayes để mình họa việc lựa chọn các đặc trưng trên bộ số liệu bệnh tiểu đường có sẵn. Các đặc trưng được lựa chọn là các đặc trưng đều có ý nghĩa trong mô hình và khi sử dụng các đặc trưng này để xây dựng mô hình hồi quy Logistic sẽ cho kết quả là thông tin Bayes (BIC) nhỏ nhất nhưng xác suất hậu nghiệm cao nhất.
PHƯƠNG PHÁP NGHIÊN CỨU
Phương pháp và thiết kế nghiên cứu
Phương pháp nghiên cứu lý thuyết
Rút gọn đặc trưng là một chuỗi các kỹ thuật trong học máy và thống kê nhằm giảm các biến tự do hay là bài toán tìm ra tập các đặc trưng nhỏ gọn và nhiều thông tin nhất, để cải tiến hiệu suất hoặc lưu trữ và xử lý dữ liệu1, 2. Nó làm cho việc phân tích dữ liệu dễ dàng hơn và nhanh hơn cho các thuật toán học máy. Xác định các vector đặc trưng có ý nghĩa thông dụng và phổ biến nhất cho việc biểu diễn dữ liệu cho các bài toán phân lớp và hồi quy.
Rút gọn đặc trưng bao gồm lựa chọn đặc trưng (feature selection) và trích rút đặc trưng (feature extraction), trong đó:
- Các kỹ thuật lựa chọn đặc trưng tìm ra một tập con nhỏ hơn của một bộ dữ liệu nhiều chiều để tạo ra một mô hình dữ liệu. Các chiến lược chính cho lựa chọn tập đặc trưng là sử dụng các phương thức lọc (filters), phương thức bao bọc (wrappers) và phương thức nhúng/lai ghép (embedded/hybrid).
- Trích rút đặc trưng bao gồm việc chuyển đổi dữ liệu chiều cao thành không gian có số chiều ít hơn. Trong học máy, nhận dạng mẫu và xử lý ảnh, trích rút đặc trưng bắt đầu từ tập các giá trị dữ liệu đo được và các giá trị dẫn xuất (các đặc trưng) để thu được thông tin và không dư thừa (non-redundant), tạo thuận lợi cho các bước học và tổng quát hóa. Các phương pháp bao gồm phân tích thành phần chính (principal component analysis-PCA), kernel PCA, phân tích phân biệt tuyến tính và phân tích phân biệt tổng quát.
Vấn đề quan trọng trong xử lý dữ liệu y tế là rút gọn đặc trưng 3,4. Các đặc trưng được chọn tùy thuộc vào thuộc tính của dữ liệu. Các thành phần của rút gọn đặc trưng trong bài toán phân tích dữ liệu y tế:
- Thuật toán tìm kiếm (Search Algorithm): thuật toán để tìm ra một tập con các đặc trưng.
- Hàm đánh giá (evalution function): được sử dụng để đánh giá các tập hợp con được kiểm tra đặc trưng
- Phân loại (Classifier): được xây dựng dựa trên trên tập con đặc trưng cuối cùng.
Trong nghiên cứu này, tác giả sử dụng thuật toán Bayes để rút gọn đặc trưng đầu vào. Đây là một thuật toán đơn giản trong học máy nhưng lại có nhiều ưu điểm trong dự báo5,6.
Thuật toán Bayes dựa trên định lý Bayes được phát biểu như sau:
Trong đó:
P(X): Xác suất của sự kiện X xảy ra, không quan tâm đến Y.
P(Y): Xác suất của sự kiện Y xảy ra, không quan tâm đến X.
P(X|Y): Xác suất (có điều kiện) của sự kiệnX xảy ra, nếu biết rằng sự kiện Y xảy ra.
P(Y|X): Xác suất hậu nghiệm của Y nếu biết X.
Phương pháp nghiên cứu ứng dụng:
Sử dụng thuật toán Bayes chạy phần mềm R để thử nghiệm rút gọn đặc trưng trên bộ số liệu y tế.
Mẫu nghiên cứu
Lấy toàn bộ bộ số liệu tiểu đường từ ngân hàng dữ liệu UCI - Machine learning repository 7. Bộ số liệu này gồm 520 bản ghi và 17 biến. Cụ thể gồm các biến như sau: Age (Tuổi); Gender (Giới tính); Polyuria (Tiểu nhiều); Polydipsia (Khát nhiều); Sudden weight loss (giảm cân đột ngột); Weakness (yếu); Polyphagia (chứng ăn nhiều); Genital thrush (Tưa miệng); visual blurring (mắt mờ); Itching (Ngứa); Irritability (Cáu gắt); delayed healing (chậm lành vết thương); partial paresis (liệt một phần); muscle stiffness (cứng cơ); Alopecia (rụng tóc từng mảng); Obesity (béo phì) và 1 biến đầu ra (diabetes) mang 2 giá trị Positive (mắc bệnh tiểu đường) và Negative (Không mắc tiểu đường).
Quản lý và phân tích số liệu
Sử dụng phần mềm R với các thư viện tích hợp để phân tích và xử lý số liệu 5,6. Bao gồm các thư viện: UsingR, ggplot2, psych, DescTools, visreg, BMA, epiDisplay, rms, caret, pROC, DynNom và shiny. Kết quả trình bày dưới dạng các bảng và hình ảnh.
Thời gian và địa điểm nghiên cứu
Nghiên cứu được thực hiện tại trường Đại học Y dược, Đại học Thái Nguyên từ tháng 01 đến tháng 7 năm 2021.
KẾT QUẢ
Mô tả các biến
Sử dụng phần mềm R để mô tả các biến quan sát trên tập dữ liệu. Sau khi chạy câu lệnh, bảng mô tả dữ liệu được thể hiện ở hình sau:
Hình 1. Bảng mô tả các đặc trưng trong tập dữ liệu
Bên cạnh đó tác giả cũng kiểm tra các giả định trước khi đưa vào mô hình như liệu các biến có mối liên quan chặt chẽ với nhau hay không để tránh hiện tượng đa cộng tuyến...
Rút gọn đặc trưng để chọn mô hình tối ưu
Đầu tiên, chạy mô hình hồi quy với tất cả các đặc trưng đầu vào của bộ số liệu ta thu được kết quả mô hình hồi quy Logistic như sau:
Hình 2. Kết quả đánh giá mô hình hồi quy với tất cả các biến đầu vào
Mô hình này cho kết quả là tổng bình phương của các phần dư (Residual Sum of Squares) trong mô hình ở mức R2=0,782 tức là mô hình có thể giải thích được khoảng 78,2% khác biệt về nguy cơ mắc bệnh tiểu đường.
Tuy nhiên, quan sát giá trị của các biến trong mô hình hồi quy trên thấy rằng, việc sử dụng tất cả các biến đầu vào (16 biến) trong tập dữ liệu để đưa vào mô hình làm cho phương trình hồi quy rất phức tạp và có rất nhiều biến không có ý nghĩa trong mô hình (p > 0,05). Chúng tôi mong muốn một mô hình sử dụng ít biến đầu vào hơn mà có thể giải thích được khác biệt về nguy cơ mắc bệnh tiểu đường tương đương hoặc tốt hơn.
Nhóm tác giả đã sử dụng thuật toán Bayes bằng công cụ Bayesian Model Averageing (BMA) chạy trên phần mềm R để tìm mô hình tối ưu. Bayes là phương pháp dùng để chọn một số đặc trưng có liên quan đến kết quả chẩn đoán. Phương pháp Bayes thể hiện mỗi mô hình có một xác suất tiền nghiệm, cộng với dữ liệu thực tế, chúng ta có thể biết được đặc trưng nào có liên quan đến đầu ra 5,6.
Sau khi chạy thuật toán, thu được 105 mô hình phù hợp. Trong đó, có 5 mô hình tốt nhất được thể hiện. Mỗi mô hình BMA sẽ báo cáo hệ số hồi quy của mỗi biến tiên lượng, hệ số xác định R2 và xác suất hậu nghiệm. Trên cơ sở đó nhà nghiên cứu có thể lựa chọn các đặc trưng từ gợi ý của chương trình.
Hình 3. Kết quả chạy thuật toán Bayes để lựa chọn các mô hình tối ưu nhất
Trên cơ sở các mô hình gợi ý, chúng tôi lựa chọn mô hình có tiêu chí thông tin Bayes (BIC) nhỏ nhất nhưng xác suất hậu nghiệm cao nhất để xây dựng mô hình hồi quy nhằm tiên lượng việc mắc bệnh tiểu đường cho bệnh nhân. Trong bài báo này, chúng tôi sử dụng 9 biến đặc trưng theo mô hình tốt nhất đã chọn là: Gender (Giới tính); Polyuria (Tiểu nhiều); Sudden weight loss (giảm cân đột ngột); Weakness (yếu); Genital thrush (Tưa miệng); Itching (Ngứa); Irritability (Cáu gắt); delayed healing (chậm lành vết thương); partial paresis (liệt một phần). Kết quả thu được như sau:
Hình 4. Kết quả chạy mô hình tối ưu
Huấn luyện và đánh giá mô hình
Để huấn luyện và đánh giá mô hình vừa chọn, tác giả thực hiện phương pháp chia tập dữ liệu thành 2 tập: tập huấn luyện (70% dữ liệu mẫu) và tập kiểm tra (30% dữ liệu mẫu). Sau khi chạy mô hình trên tập huấn luyện thu được kết quả:
Hình 5. Kết quả huấn luyện trên mô hình tối ưu
Sử dụng ma trận hỗn hợp để đánh giá mô hình tập kiểm tra, cho kết quả như sau
Hình 6. Ma trận hỗn hợp của 2 mô hình
Ngoài ra, tác giả đã vẽ đường cong ROC (Receiver Operating Characteristics) để đánh giá chất lượng cường độ phân biệt của mô hình thử nghiệm sử dụng số liệu có biểu thị độ nhạy và độ đặc hiệu. Đường cong này là tập hợp những gia điểm có hoành độ là tỷ lệ âm tính thật và tung độ là độ nhạy của từng giá trị thử nghiệm.
Hình 7. Đường cong ROC
Diện tích dưới đường cong trong mô hình vừa chạy bên trên là: 0.9484.
Như vậy, việc rút gọn các đặc trưng đầu vào có ý nghĩa trong việc xây dựng mô hình đánh giá tiên lượng mắc bệnh tiểu đường khá tốt. Tuy nhiên, với những người dùng không chuyên về toán học thì mô hình có ý nghĩa thực tế không cao. Tác giả đã sử dụng thêm công cụ Dynamic Nomogram trên R để chạy chương trình chẩn đoán với các bệnh nhân mới. Người dùng chỉ cần nhập các thông tin đầu vào của bệnh nhân, hệ thống sẽ tính toán xác suất mắc bệnh dựa trên mô hình hồi quy đã xây dựng.
Trong ví dụ ở hình 8, sau khi nhập thông tin của bệnh nhân, mô hình đã tính toán xác suất mắc bệnh là 99.8% với khoảng tin cậy 95% là 0.993 đến 1.
Hình 8. Kết quả chạy ứng dụng Dynom để tiên lượng mắc bệnh tiểu đường
cho bệnh nhân mới
BÀN LUẬN
Việc sử dụng 9 biến đặc trưng đầu vào để xây dựng mô hình hồi quy cho kết quả R2=76,5%, tức là mô hình có thể giải thích được khoảng 76,5% khác biệt về nguy cơ mắc bệnh tiểu đường. Theo kết quả nghiên cứu của N.T. Danh và cộng sự, và các tài liệu về phân tích dữ liệu 3,6,8,9, mô hình được lựa chọn là mô hình có hệ số xác định R2 lớn nhất. Tuy nhiên, mô hình này có hệ số xác định R2 là thấp hơn so với mô hình ban đầu có R2=78,2% nhưng thấp hơn không đáng kể và sử dụng ít hơn rất nhiều số biến đặc trưng đầu vào làm cho mô hình hồi quy đơn giản hơn. Ngoài ra, hầu hết tất cả các đặc trưng trong mô hình được lựa chọn đều có liên quan đến bệnh tiểu đường với p < 0,01.
Bên cạnh đó tác giả cũng sử dụng phương pháp học máy để huấn luyện và đánh giá mô hình bằng cách chia tập dữ liệu ra làm 2 tập con để huấn luyện (70% dữ liệu mẫu) và đánh giá (30% dữ liệu mẫu). Kết quả trong hình 5 cho thấy khi đưa 9 biến đầu vào đã được lựa chọn vào mô hình thì chúng có ảnh hưởng đến việc chẩn đoán mắc bệnh tiểu đường đáng kể, làm cho giảm độ khác biệt về giá trị quan sát và ước tính kết quả từ 485,05 xuống 182,46 trên tập dữ liệu huấn luyện. Kết quả trên hình 6 sử dụng ma trận hỗn hợp để đánh giá trên tập kiểm tra cho độ nhạy (sencitivity) đạt 80,6% và độ đặc hiệu (specificity) đạt 93,26% (Sử dụng cách làm tương tự mô hình ban đầu với 16 đặc trưng thì thu được độ nhạy là 86,44% và độ đặc hiệu là 90,72%). Như vậy, có thể thấy mô hình sử dụng 9 biến đặc trưng đã được lựa chọn về cơ bản tương đương với mô hình ban đầu gồm 16 đặc trưng trong việc tiên lượng đánh giá nguy cơ mắc tiểu đường.
Ngoài ra, tác giả đã vẽ đường cong ROC (Receiver Operating Characteristics) để đánh giá chất lượng cường độ phân biệt của mô hình thử nghiệm sử dụng số liệu có biểu thị độ nhạy và độ đặc hiệu. Kết quả hiển thị trong hình 7 cho diện tích dưới đường cong trong mô hình tối ưu là 0,9484. Do đó, mô hình có khả năng phân định bệnh nhân có bị mắc tiểu đường hay không rất tốt.
Mặc dù mô hình cho kết quả rất tốt, có độ tin cậy cao trên tập dữ liệu mẫu nhưng theo các chuyên gia, việc ứng dụng mô hình này trong thực tế cần nghiên cứu thêm và cần thử nghiệm so sánh giữa việc chẩn đoán của phần mềm và của các bác sĩ. Kết quả nghiên cứu này chứng minh khả năng ứng dụng của các công cụ toán học để giải quyết các bài toán thực tế như bài toán hỗ trợ ra quyết định trong y học.
KẾT LUẬN
Trong nghiên cứu này, tác giả đã sử dụng thuật toán Bayes trong rút gọn các đặc trưng để đưa vào mô hình hồi quy Logistic làm cho mô hình có độ phức tạp tính toán nhỏ hơn mô hình ban đầu mà không ảnh hưởng nhiều đến kết quả tiên lượng chẩn đoán. Đồng thời, nhóm tác giả cũng thực hiện đánh giá mô hình đã chọn bằng sử dụng ma trận hỗn hợp và đường cong ROC cho kết quả rất tốt với độ nhạy đạt 80,60%, độ đặc hiệu đạt 93,26%, diện tích dưới đường cong đạt 0,9484. Bên cạnh đó, việc sử dụng ứng dụng Dynamic Nomogram để tính toán xác suất mắc bệnh của các bệnh nhân mới sẽ rất hữu ích trong việc sàng lọc ban đầu với số lượng lớn bệnh nhân cũng như giảm chi phí thực hiện đối với cả hệ thống y tế và bệnh nhân.
Tài liệu tham khảo
1. Sang, H. V. Nghiên cứu cải tiến các kỹ thuật rút gọn đặc trưng cho phân lớp dữ liệu. Luận án tiến sĩ, Đại học Quốc Gia Hà Nội (2018).
2. Ladha, L. & Deepa, T. Feature selection methods and algorithms International journal on computer science and engineering 3 (2011).
3. Danh, N. T., Ngọ, Đ. V. & Dũng, T. Q. Ứng dụng phương pháp hồi quy Logistic xác định tổ hợp tối ưu các yếu tố ảnh hưởng và xây dựng bản đồ tai biến trượt lở đất huyện Khánh Vĩnh, tỉnh Khánh Hòa. Tạp chí phát triển Khoa học và công nghệ (2017).
4. P, S. & Satheeskumar, B. A Survey on feature selection of Cancer disease Using Data Mining Techniques. International Journal of Computer Science and Mobile Computing (2016).
5. T, P. R codebook. (O’Reilly, 2011).
6. Tuấn, N. V. Phân tích dữ liệu với R Hỏi và đáp. (Nhà xuất bản Tổng hợp Thành phố Hồ Chí Minh., 2018).
7. https://archive.ics.uci.edu/ml/machine-learning-databases/ 00529/.
8. http://r-statistics.co/Logistic-Regression-With-R.html.
9. Max K & J, K., (Springer, 2013).

công trình này được cấp phép theo Creative Commons Attribution-phi thương mại-NoDerivatives 4.0 License International . p>
Bản quyền (c) 2022 Tạp chí Khoa học và Công nghệ Y Dược