Vấn đề mất cân bằng dữ liệu trong phát hiện gian lận tài chính

14:32 | 12/08/2021 Print
Ngày nay, cùng với sự phát triển của khoa học và công nghệ, thì các hành vi và các hình thức gian lận tài chính ngày càng trở nên phức tạp và tinh vi hơn. Gian lận tài chính đang ngày càng phổ biến và gây ra những hậu quả kinh tế nghiêm trọng trên toàn thế giới. Do đó, phát hiện và ngăn chặn gian lận tài chính đã và đang thu hút được sự quan tâm lớn từ các nhà nghiên cứu. Xu hướng hiện nay, bài toán phát hiện gian lận tài chính có thể được giải quyết với sự hỗ trợ của các kỹ thuật khai phá dữ liệu. Tuy nhiên, do đặc thù dữ liệu với số lượng các gian lận ít hơn rất nhiều so với không gian lận dẫn đến tình trạng mất cân bằng dữ liệu và gây khó khăn cho việc khai phá dữ liệu. Trong bài báo này, chúng tôi sẽ trình bày về vấn đề mất cân bằng dữ liệu cùng với giải pháp để nâng cao hiệu quả phát hiện gian lận tài chính.

GIAN LẬN TÀI CHÍNH VÀ CÁCH PHÁT HIỆN GIAN LẬN

Thế nào là gian lận tài chính?

Vấn đề mất cân bằng dữ liệu trong phát hiện  gian lận tài chính
Gian lận tài chính có thể gây ra những hậu quả kinh tế nghiêm trọng đối với các tổ chức, cá nhân và chính phủ

Gian lận tài chính là một hành vi cố ý, trái pháp luật, trái với các quy định hoặc chính sách nhằm mục đích có được lợi ích tài chính trái phép. Gian lận tài chính được chia thành bốn loại sau: gian lận ngân hàng, gian lận chứng khoán và gian lận hàng hóa, gian lận bảo hiểm và gian lận tài chính khác. Các loại gian lận tài chính trên có thể được phân loại cụ thể hơn, như: gian lận thẻ tín dụng, gian lận rửa tiền, gian lận bảo hiểm xe ô tô, gian lận bảo hiểm y tế, gian lận tiếp thị, gian lận doanh nghiệp…

Hiện nay, gian lận tài chính ngày càng phổ biến và có thể gây ra những hậu quả kinh tế nghiêm trọng đối với các tổ chức, cá nhân và chính phủ. Do đó, việc phát hiện và ngăn chặn kịp thời gian lận tài chính đóng vai trò ngày càng quan trọng. Mục tiêu của phát hiện gian lận tài chính là tối đa hóa những dự đoán chính xác và duy trì những dự đoán không chính xác ở mức chấp nhận được. Nghĩa là khả năng không phát hiện được gian lận phải ở mức thấp nhất và tối thiểu tỷ lệ dự đoán các trường hợp không gian lận được dự đoán là gian lận. Từ đó, giúp các cơ quan, tổ chức sớm phát triển những chính sách và chiến lược phù hợp giảm ảnh hưởng của gian lận tài chính.

Phương pháp phân tích dữ liệu để phát hiện gian lận tài chính

Phương pháp phân tích dữ liệu truyền thống từ lâu đã được sử dụng để phát hiện gian lận. Các phương pháp này đòi hỏi những yêu cầu điều tra phức tạp và mất nhiều thời gian để thực hiện đối với các lĩnh vực khác nhau, như: tài chính, kinh tế, hoạt động kinh doanh và pháp luật. Các ngành công nghiệp đầu tiên sử dụng kỹ thuật phân tích dữ liệu để phát hiện gian lận là các công ty điện thoại, công ty bảo hiểm và ngân hàng. Cùng với sự phát triển của khoa học và công nghệ, các hành vi và các hình thức gian lận ngày càng trở nên phức tạp và tinh vi hơn. Điều này làm cho việc phát triển những phương pháp phát hiện gian lận hiệu quả gặp không ít khó khan.

Để phát hiện sớm những giao dịch bất thường, người ta thường phân tích những thông tin trong cơ sở dữ liệu giao dịch đã có bằng cách xác định một giao dịch nào đó không giống với những giao dịch đã được thực hiện trước đó. Mặc dù số giao dịch gian lận nhỏ hơn rất nhiều so với các giao dịch thông thường, nhưng việc phân loại chính xác chúng thường khó khăn hơn rất nhiều so với phân loại chính xác các giao dịch thật. Với sự phát triển của khoa học, công nghệ và sự bùng nổ dữ liệu hiện nay, phương pháp phân tích dữ liệu truyền thống đòi hỏi những yêu cầu điều tra phức tạp và tốn kém về mặt thời gian, do đó tính hiệu quả thấp và không còn phù hợp nữa.

Ứng dụng khai phá dữ liệu trong phát hiện gian lận tài chính

Theo xu thế hiện nay, đặc biệt, trong bối cảnh Cách mạng công nghiệp 4.0, việc phát hiện gian lận thường được thực hiện bởi các kỹ thuật của khai phá dữ liệu.

Trong lĩnh vực phát hiện gian lận tài chính, có nhiều bộ dữ liệu tài chính khác nhau được sử dụng. Các bộ dữ liệu khác nhau về kích cỡ, khác nhau về hình thức gian lận và khác nhau về số lượng các trường hợp gian lận.

Tuy nhiên, các bộ dữ liệu này đều có chung một đặc trưng là số lượng các trường hợp gian lận chiếm tỷ lệ rất nhỏ so với các trường hợp không gian lận. Nói cách khác, các bộ dữ liệu tài chính thường xảy ra sự mất cân bằng.

Dữ liệu mất cân bằng là dữ liệu có sự chênh lệch lớn về số lượng phần tử giữa các lớp dự đoán, nghĩa là số lượng các phần tử đại diện cho một lớp lớn hơn rất nhiều so với các lớp khác, chẳng hạn như tỷ lệ của các giao dịch tài chính không gian lận là cao hơn rất nhiều so với giao dịch gian lận. Hoặc trong việc phát hiện bệnh nhân ung thư, thì tỷ lệ bệnh nhân không bị ung thư là cao hơn rất nhiều so với các bệnh nhân bị ung thư... Đối với trường hợp hai lớp (chỉ có 2 trường hợp của lớp dự đoán, chẳng hạn như việc xác định giới tính là Nam/Nữ, hay xác định giao dịch là Gian lận/Không gian lận...), thì tỷ lệ này có thể là 1:2, 1:10, 1:100, 1:1000. Lớp chiếm số đông phần tử gọi là lớp đa số (negative), ngược lại lớp có ít phần tử gọi là lớp thiểu số (positive). Khi tiến hành khai phá dữ liệu trên các dữ liệu mất cân bằng, thì các thuật toán thường đạt độ chính xác cao với lớp đa số, nhưng với lớp thiểu số lại ngược lại.

Khi áp dụng các giải thuật phân lớp với các bộ dữ liệu tài chính mất cân bằng, thì việc phát hiện các phần tử ở lớp thiểu số có độ chính xác rất thấp hoặc bị bỏ qua, tức là rất khó phát hiện ra trường hợp gian lận tài chính.

Năm 2009, FICO là tổ chức hàng đầu về công nghệ, quản lý và ra quyết định đã phối hợp với Trường Đại học California, San Diego (UCSD) tổ chức cuộc thi khai phá dữ liệu “UCSD-FICO data mining contest 2009” về phát hiện những giao dịch thương mại điện tử bất thường. Với 2 nhiệm vụ “khó” và “dễ” của cuộc thi, 2 bộ dữ liệu huấn luyện với tỷ lệ mất cân bằng khác nhau được sử dụng. Bộ dữ liệu thứ nhất với tỷ lệ mất cân bằng xấp xỉ 100:3, trong đó có 2,8% các giao dịch điện tử gian lận, tương ứng 2.293 trường hợp trong trong tổng số 100.000 giao dịch. Các bộ dữ liệu này được trình bày trong Bảng 1.

Bảng 1: Dữ liệu UCSD-FICO

Nhiệm vụ

Dữ liệu huấn luyện

Dữ liệu kiểm tra

Dữ liệu

Tổng số

Gian lận

Hợp pháp

Khó

UCSD-FICO.1

94.682

2.094

92.588

36.019

Dễ

UCSD-FICO.2

100.000

2.654

97.346

50.000

Nguồn: Nhóm tác giả tổng hợp

Một số bộ dữ liệu tài chính khác trong thực tế xảy ra sự mất cân bằng, như: bộ dữ liệu phát hiện giao dịch gian lận (sales) của Luis Torgo, dữ liệu phát hiện gian lận bảo hiểm ô tô (carclaim) được sử dụng bởi Clifton Phua. Ngoài ra, còn có bộ dữ liệu thẻ tín dụng của Đức (German Credit Data) và dữ liệu Australian Credit Approval được sử dụng phổ biến trong các công trình nghiên cứu về phát hiện gian lận. Các bộ dữ liệu này được mô tả như Bảng 2 và tỷ lệ mất cân bằng được minh họa trong Hình 1.

Bảng 2: Một số bộ dữ liệu tài chính khác

Dữ liệu

Tổng số bản ghi

Gian lận

Hợp pháp

Sales

401.146

1.270

14.462

Carclaim

15.420

923

14.497

German Credit Data

1.000

300

700

Australian Credit Approval

690

307

383

Vấn đề mất cân bằng dữ liệu trong phát hiện  gian lận tài chính
Hình 1: Biểu đồ tỷ lệ mất cân bằng của một số bộ dữ liệu

Nguồn: Nhóm tác giả tổng hợp

NÂNG CAO HIỆU QUẢ ỨNG DỤNG KHAI PHÁ DỮ LIỆU TRONG PHÁT HIỆN GIAN LẬN TÀI CHÍNH

Ngày nay, cùng với sự phát triển mạnh mẽ của công nghệ thông tin và truyền thông là sự tăng lên không ngừng của dữ liệu. Khi dữ liệu càng lớn, thì vấn đề khai phá dữ liệu (data mining) để tìm ra những thông tin tri thức có ích lại càng đóng vai trò quan trọng. Một trong những phương pháp chính thường được sử dụng trong khai phá dữ liệu là phân lớp dữ liệu, phương pháp này áp dụng cho trường hợp dự đoán số lớp của nhãn đầu ra là hữu hạn, chẳng hạn như: số lớp dự đoán về giới tính là 2 (nam/nữ), số lớp dự đoán về thu nhập của một người có thể là 3 chẳng hạn (cao/trung bình/thấp).

Với bài toán dự báo thời tiết, để kết luận thời tiết ngày mai là mưa hay không mưa, người ta căn cứ vào các thông số về nhiệt độ, độ ẩm, gió... Hay với bài toán về tín dụng ngân hàng, thì người ta sẽ căn cứ vào các thông tin: Tuổi, Thu nhập... để ra quyết định cho vay hay không từ việc phân tích các dữ liệu của khách hàng cá nhân trước đó đã cho vay. Phân lớp dữ liệu chính là quá trình phân tích dữ liệu có sẵn để trích rút ra mô hình mô tả dữ liệu hoặc dự đoán xu hướng dữ liệu. Dự đoán xu hướng dữ liệu cụ thể là dự đoán nhãn lớp cho dữ liệu mới, với bài toán dự báo thời tiết, thì nhãn lớp là “mưa” và “không mưa”, với bài toán tín dụng ngân hàng, thì nhãn lớp tương ứng là “Rủi ro” và “An toàn” (hoặc Cho vay/Không cho vay). Ví dụ về xây dựng mô hình phân lớp như Hình 2.

Vấn đề mất cân bằng dữ liệu trong phát hiện  gian lận tài chính

Hình 2: Ví dụ về xây dựng mô hình phân lớp

Vấn đề mất cân bằng dữ liệu trong phát hiện  gian lận tài chính

Hình 3: Các pha xử lý trong phân lớp dữ liệu mất cân bằng

Quá trình huấn luyện được thực hiện bằng một thuật toán phân lớp, thuật toán thực hiện học dữ liệu huấn luyện (có nhãn đã biết trước) để từ đó trích rút thông tin và xác định một mô hình mô tả dữ liệu. Mô hình ở đây chính là các quy tắc, luật hay công thức toán học mô tả lớp để có thể dự đoán. Tuy nhiên, nếu dữ liệu huấn luyện có sự mất cân bằng, thì quá trình huấn luyện trên sẽ cho đầu ra là mô hình dự báo không tốt. Để giải quyết vấn đề này, cần tập trung vào một trong 2 hướng, gồm: bổ sung thêm pha xử lý dữ liệu mất cân bằng để làm giảm tính mất cân bằng trước khi huấn luyện hoặc cải tiến thuật toán phân lớp cho phù hợp với dữ liệu mất cân bằng (Hình 3).

Trong thực tế, vấn đề mất cân bằng dữ liệu đối với các bộ dữ liệu tài chính là phổ biến. Để giải quyết hiệu quả bài toán phát hiện gian lận tài chính, thì có thể sử dụng các phương pháp phân lớp của khai phá dữ liệu, trong đó có 2 hướng tiếp cận chính được tập trung nghiên cứu cho việc nâng cao hiệu quả phân lớp là: hướng tiếp cận ở mức độ dữ liệu và hướng tiếp cận ở mức độ thuật toán.

Hướng tiếp cận ở mức độ dữ liệu: Hướng tiếp cận ở mức độ dữ liệu bao gồm các phương pháp điều chỉnh phân bố dữ liệu bằng cách tăng số lượng phần tử lớp thiểu số (sinh thêm các phần tử thuộc lớp thiểu số một cách ngẫu nhiên, hoặc có chọn lọc, hoặc sinh thêm phần tử nhân tạo), giảm số lượng phần tử lớp đa số hoặc kết hợp cả hai phương pháp. Cả 3 phương pháp trên đều hướng đến mục tiêu cân bằng phân bố dữ liệu. Ưu điểm của các phương pháp tiếp cận mức độ dữ liệu là sự linh hoạt, dữ liệu có thể sử dụng để huấn luyện các bộ phân loại khác nhau. Hướng tiếp cận này được tập trung nghiên cứu nhiều hơn và một số phương pháp tiêu biểu có thể kể tới là: SMOTE (Synthetic Minority Over-sampling Technique), ROS (Random Over-sampling), RUS (Random Under-sampling), BSO...

Hướng tiếp cận ở mức độ thuật toán: Với hướng tiếp cận ở mức độ thuật toán, thì tập trung vào việc điều chỉnh, cải tiến các thuật toán phân lớp chuẩn (như: cây quyết định, Naïve Bayes, máy véc tơ hỗ trợ SVM, rừng ngẫu nhiên RF...) sao cho phù hợp với dữ liệu mất cân bằng. Hướng tiếp cận này là phức tạp hơn so với hướng tiếp cận ở mức độ dữ liệu và yêu cầu cần phải hiểu rõ về thuật toán phân lớp cần cải tiến.

Nghiêm Thị Toàn và cộng sự (2017) đã tiến hành thực nghiệm trên 2 bộ dữ liệu mẫu German Credit Data, UCSD-FICO để xác định khả năng phân lớp của một số phương pháp phân lớp dữ liệu mất cân bằng nhằm dự đoán khả năng có gian lận hay không gian lận tín dụng của một khách hàng bất kỳ. Hai bộ dữ liệu mẫu tiến hành thực nghiệm với các phương pháp điều chỉnh dữ liệu: SMOTE, ROS, RUS, BSO1 và Mask [1]. Sau khi áp dụng các phương pháp điều chỉnh dữ liệu, các bộ dữ liệu mới được phân lớp bằng các giải thuật phân lớp SVM, C5.0 (Cây quyết định) và RF (rừng ngẫu nhiên). Kết quả thực nghiệm trên hai bộ dữ liệu mẫu được thể hiện qua giá trị G-mean trong Hình 4, 5.

Vấn đề mất cân bằng dữ liệu trong phát hiện  gian lận tài chính

Hình 4: Biểu đồ so sánh giá trị G-mean của trên bộ dữ liệu German Credit Data

Vấn đề mất cân bằng dữ liệu trong phát hiện  gian lận tài chính

Hình 5: Biểu đồ so sánh giá trị G-mean trên bộ dữ liệu UCSD-FICO

Nguồn: Nghiêm Thị Toàn và cộng sự (2017)

Như vậy, có thể thấy rằng, khi áp dụng các phương pháp xử lý dữ liệu mất cân bằng, thì kết quả phân lớp đều tốt hơn hẳn so với phân lớp trực tiếp trên dữ liệu gốc. Với bộ dữ liệu German Credit Data, thì tỷ lệ mất cân bằng nhỏ, chỉ là 1:2.33, nên sự ảnh hưởng của các phương pháp xử lý dữ liệu mất cân bằng không quá lớn. Tuy nhiên, với bộ dữ liệu UCSD-FICO, thì tỷ lệ mất cân bằng khá lớn (là 1:20.74), nên hiệu quả phân lớp của các phương pháp xử lý dữ liệu mất cân bằng là rất cao. Do đó, có thể thấy rằng, việc áp dụng các phương pháp xử lý dữ liệu mất cân bằng là cần thiết để nâng cao hiệu quả cho việc phân lớp, cũng như phát hiện chính xác các gian lận tài chính, dữ liệu càng có tỷ lệ mất cân bằng cao, thì càng cần thiết.

KẾT LUẬN

Gian lận tài chính ngày càng phổ biến và gây ảnh hưởng nghiêm trọng đến các tổ chức, cá nhân và doanh nghiệp. Việc phát hiện và ngăn chặn các giao dịch tài chính gian lận ngày càng trở nên quan trọng và xu hướng hiện nay là ứng dụng khai phá dữ liệu. Với đặc thù dữ liệu trong giao dịch tài chính thường xảy ra sự mất cân bằng giữa tỷ lệ gian lận và không gian lận, nên khi áp dụng các thuật toán phân lớp chuẩn của khai phá dữ liệu sẽ gặp nhiều khó khăn trong việc phát hiện ra các giao dịch gian lận. Để nâng cao hiệu quả cho việc phát hiện gian lận tài chính, thì cần có một cách tiếp cận riêng, đó là sử dụng các phương pháp phân lớp dữ liệu mất cân bằng./.

TÀI LIỆU THAM KHẢO

1. Nghiêm Thị Toàn, Nghiêm Thị Lịch, Bùi Dương Hương, Đặng Xuân Thọ (2017). Mask: phương pháp mới nâng cao hiệu quả phát hiện gian lận tài chính, Tạp chí Khoa học và Kỹ thuật - Học viện KTQS, số 184, 5-17

2. H. Ali, M. N. M. Salleh, R. Saedudin, K. Hussain and M. F. Mushtaq (2019). Imbalance class problems in data mining: a review, Indonesian Journal of Electrical Engineering and Computer Science, 14(3), 1560-1571

3. Anuj Sharma and Prabin Kumar Panigrahi (2012). A Review of Financial Accounting Fraud Detection base on Data Mining Techniques, International Journal of Computer Applications, 39(1), 37-47

4. E. W. T Ngai, Yong Hu, Y. H. Wong, Yijun Chen and Xin Sun (2011). The application of data mining techniques in financial fraud detection: A classification framework and an academic review of literature, Decision Support Systems, 50(3), 559-569

5. Yanmin Sun, Andrew K.C. Wong and Mohamed S. Kamel (2009). Classification of imbalanced data: a review, International Journal of Pattern Recognition and Artificial Intelligence, 23, 687-719

TS. Nguyễn Hữu Xuân Trường, ThS. Đỗ Thế Dương

Học viện Chính sách và Phát triển

(Bài đăng trên Tạp chí Kinh tế và Dự báo số 8, tháng 3/2021)

© Kinh tế và Dự báo - Bộ Kế hoạch và Đầu tư