Những "bản nhạc đầu tiên" với thống kê Bayesian

Phương pháp nghiên cứu là cột sống của toàn bộ nghiên cứu, là con đường dẫn tới lời giải cho câu hỏi mà nhà nghiên cứu đặt ra. Vậy nên, đối với các nhà nghiên cứu trẻ, tìm hiểu và củng cố kiến thức về các phương pháp nghiên cứu là một phần trọng yếu để trưởng thành trong nghề.

Tuy nhiên, thế giới khoa học đã phát triển hàng trăm phương pháp nghiên cứu phức tạp, từ định lượng đến định tính, rồi vô vàn các mô hình. Tìm hiểu chúng giống như leo một rặng ngọn núi cao, vừa qua đỉnh này đã tới đỉnh khác, rất dễ nản lòng. Chính vì vậy, có được những cuốn sách có thể hỗ trợ thúc đẩy quá trình học hỏi là vô cùng quý.

Là một nghiên cứu viên trong Trung tâm Nghiên cứu Xã hội Liên ngành, Trường Đại học Phenikaa, tôi có cơ hội được hướng dẫn và làm quen với phương pháp thống kê Bayesian. Mặc dù được hướng dẫn và làm việc trực tiếp, quá trình khám phá Bayesian cũng không hề dễ dàng với nhiều trở ngại về ngôn ngữ, lập trình, hay toán học.

Chính vì vậy, cuốn sách “Bản hoà tấu dữ liệu xã hội” được viết bởi các tác giả Vương Quân Hoàng, Lã Việt Phương, Trần Trung, Nguyễn Minh Hoàng, và Hồ Mạnh Toàn [1] - những người thầy, người anh lớn trong Trung tâm ISR - được xuất bản là một cơ hội quý để tôi có thêm động lực “vượt chướng ngại vật”.

Hình 1. Bản hoà tấu dữ liệu xã hội

Hiện nay, thống kê Bayesian kém phổ biến hơn nhiều so với thống kê truyền thống, hay còn gọi là thống kê frequentist. Đối với lĩnh vực khoa học xã hội và nhân văn (KHXH&NV), thống kê Bayesian thậm chí còn gần như không tồn tại.

Vì vậy, trong những chương đầu tiên, các tác giả cũng giải thích rõ lựa chọn giới thiệu thống kê Bayesian thay vì thống kê truyền thống. Nhóm tác giả đánh giá Bayesian có thể giải quyết một vấn đề lớn đang tồn tại trong khoa học xã hội: tái xác lập kết quả. Cuốn sách là một cuốn sổ tay hướng dẫn hữu dụng, nhỏ gọn cho những người mới tiếp cận và thực hành thống kê Bayesian.

Trong chương thứ 2, các tác giả bàn luận về vấn đề tái xác lập kết quả, mà một trong các nguyên nhân chính là các thói quen ‘táy máy’ với thống kê frequentist như “đếm sao” (Stargazing), p-hacking và HARKing [2-4]. Các thói quen này đều xoay quanh con số quyết định ý nghĩa thống kê, p-value. Về mặt thống kê, con số này nói lên mức độ tự tin với kết quả kiểm định giả thuyết. Tuy nhiên, nó vô tình khuyến khích các hành vi như làm giả số liệu, chế biến dữ liệu…, để có thể có giá trị p-value mong muốn bằng mọi giá.

Sự phát triển của khoa học mở càng làm bộc lộ rõ hơn các điểm yếu của thống kê truyền thống [1]. Đầu tiên, dữ liệu mở cho phép các nhà nghiên cứu khác thực hiện lại nghiên cứu và xác nhận lại kết quả nghiên cứu, phát hiện và ngăn ngừa hậu quả của các thói quen ‘táy máy’ đã được bàn tới [3-5]. Thứ hai, các nghiên cứu chào đón các cuộc phản biện và đối thoại mở, tăng cơ hội kiểm soát chất lượng nghiên cứu [6, 7].

Sự bùng nổ của các bộ dữ liệu mở, ngược lại, lại làm nổi bật tính hữu ích của phương pháp Bayesian, vì tư duy cốt lõi của phương pháp Bayesian là dựa vào việc cập nhật các niềm tin trước đó với những dữ liệu, bằng chứng mới. Khi KHXH là ngành mà nhiều tư duy, hành động đều không tuyệt đối dẫn đến một kết quả nhất định và không có sự thống nhất về lý thuyết hay triết lý thì phương pháp Bayesian là phương án phù hợp, cho phép các nhà nghiên cứu tinh chỉnh suy luận và minh bạch về sai lệch ước tính [8].

Dù có những điểm mạnh, phương pháp Bayesian không phổ biến vì nhiều người cảm thấy nặng nề mỗi khi tiếp cận với một phương pháp mới, đặc biệt với phương pháp đòi hỏi tư duy, hiểu biết toán học và kỹ năng lập trình. Sự thiếu thốn về tài liệu cũng ngăn trở người học đến với phương pháp mới. Các cuốn tài liệu về phương pháp Bayesian tiếng nước ngoài như cuốn của Richard McElreath [9] lại nặng nề (về cả số lượng trang, kiến thức toán và có vốn từ tiếng Anh về thống kê).

Như đã nói, đây cũng là lý do khiến tôi chần chừ tìm hiểu sâu và luyện tập thực hành phương pháp Bayesian, dù thường xuyên va chạm. Thời điểm cuốn Bản hoà tấu dữ liệu xã hội được xuất bản lại vừa phù hợp, vì chưa có một cuốn sách tham khảo tiếng Việt hướng dẫn về thống kê Bayesian. Đây là bài toán thứ hai mà cuốn sách này muốn giải quyết.

Sau khi giới thiệu các kỹ năng cơ bản với môi trường lập trình R tại Chương 3, các tác giả đã để người đọc tiếp cận với lối tư duy Bayesian bằng cách so sánh về tư duy và cách tiếp cận trong bài toán đồng xu giữa thống kê truyền thống và Bayesian tại Chương 4. Đây là nơi để người đọc nắm bắt được các khái niệm cơ bản của phương pháp Bayesian và hiểu rõ sự phụ thuộc vào cỡ mẫu của frequentist. Chương 6 giải thích kĩ càng hơn về phương pháp mô phỏng Markov chain Monte Carlo (MCMC), để hiểu về cách tính tương quan và cỡ mẫu hiệu quả. Tác giả cũng mô phỏng lại từng bước quá trình đánh giá tính hiệu quả của chuỗi MCMC để người học có thể theo dõi và tự làm lại.

Chuỗi MCMC giống sóng âm thanh

Các chương sau sẽ đi sâu hơn về các bài toán thống kê. Hiểu rằng lập trình có thể là bước cản lớn với nhiều người học, các tác giả giới thiệu về gói lập trình bayesvl trên môi trường R, được phát triển bởi chính các tác giả, để giúp người dùng có thể dễ dàng thực hiện kiểm tra các giả thuyết với thống kê Bayesian [10, 11] . Là một cuốn sách hướng dẫn về tư duy và lập trình, mỗi chương đều hướng dẫn lập trình rõ ràng và kèm lời giải thích tỉ mỉ để người học theo dõi và lặp lại các hướng dẫn. Ngoài ra, các chương đều có các bài toán để người học luyện tập và thành thục kỹ năng.

(Nguồn: (https://www.pinterest.com/pin/359936195198244686/)

Các chương sách trình bày theo dòng tư duy tiếp cận và xử lý bài toán nên dễ theo dõi. Tốt hơn nữa là người học được thực hành vẽ các đồ thị trên R. Khi thực hành, tôi đoán mọi người sẽ đoán ra dụng ý của tác giả khi đặt cái tên khá lãng mạn “Bản hoà tấu dữ liệu xã hội” cho một cuốn sách thống kê vốn đi đôi với hình ảnh nhàm chán, khô khan. Các biểu đồ dễ khiến người ta liên tưởng tới các bản nhạc.

Tiếp tục về nội dung, Chương 5 hướng dẫn tiếp cận bài toán xác suất thống kê so sánh hai nhóm mẫu bằng cả hai phương pháp frequentist và Bayesian. Người học cũng sẽ được trải nghiệm xây dựng và giải quyết các bài toán về các mô hình hồi quy tuyến tính (đơn giản và đa biến) trong Chương 8, mô hình hồi quy đa tầng (Chương 9), mô hình phức hợp (Chương 11). Chương 7 và Chương 10 sẽ giúp người học có thể tận dụng tối đa ưu thế đồ hoạ của gói lập trình bayesvl để xây dựng mô hình và trình bày các kết quả bằng đồ hoạ.

Lặp lại từng bước được trình bày trong sách, sau đó luyện tập lại cùng với một số bài toán ở cuối chương, tôi dần quen hơn với sự phức tạp của thống kê và thống kê Bayesian. Nhờ cách trình bày và tiếp cận rõ ràng, mạch lạc và sự tiện dụng của phần mềm bayesvl kèm theo, quá trình tự học cũng tương đối dễ dàng. Dày đặc hình ảnh, bảng biểu và các đoạn mã máy tính, cuốn sách buộc tôi phải mở máy tính lên và thực hành. Đổi lại, tôi tự tin hơn vì đã có thêm được kiến thức và kĩ năng liên quan đến phương pháp Bayesian.

Tài liệu tham khảo:

[1] Vuong, Q. H. et al. Bản hoà tấu dữ liệu xã hội. Nhà xuất bản khoa học xã hội.

[2] Editorial. (2017). Promoting reproducibility with registered reports. Nature Human Behaviour, 1(34).

[3] Colin, F. C., et al. (2016). Evaluating replicability of laboratory experiments in economics. Science, 351(6280), p. 1433–1436.

[4] Andrew, C. C. and Phillip, L. (2018). Is economics research replicable? sixty published papers from thirteen journals say “often not”. Critical Finance Review, 7.

[5] Michael, J. C. and Donald, P. G. (2014). When contact changes minds: An experiment on transmission of support for gay equality. Science, 346(6215), p. 1366–1369.

[6] Stephen, J. E., et al. (2017) Toward standard prac- tices for sharing computer code and programs in neuroscience. Nature Neuroscience, 20(6), p. 770–773.

[7] Brian, A. N., et al. (2015) Promoting an open research culture. Science, 348(6242), p. 1422–1425.

[8] Bradley, E. (1986). Why isn’t everyone a bayesian? The American Statistician, 40(1), p.1–5.

[9] McElreath, R. (2018). Statistical rethinking: A Bayesian course with examples in R and Stan. Chapman and Hall/CRC.

[10] Vuong, QH, et al. (2020). Improving Bayesian statistics understanding in the age of Big Data with the bayesvl R package. Software Impacts, 4, 100016.

[11] Hoang, P. H. (2019). hương trình máy tính Bayesvl trong môi trường R: Đóng góp Việt cho khoa học thế giới. Khoa học và Phát triển. URL: https://khoahocphattrien.vn/khoa-hoc/chuong-trinh-may-tinh-bayesvl-trong-moi-truong-r-dong-gop-viet-cho-khoa-hoc-the-gioi/20190613093044113p1c160.htm

Nguyễn Thanh Thanh Huyền, Trường đại học Phenikaa

URL: https://kinhtevadubao.vn/nhung-ban-nhac-dau-tien-voi-thong-ke-bayesian-18581.html