[Podcast] Ứng dụng học máy trong phân tích dữ liệu quản trị nguồn nhân lực

11 Tháng Mười Một, 2024

Từ khóa: Quản lý nguồn nhân lực; Ứng dụng mô hình học máy; Dự báo nhân viên nghỉ việc

Quản lý nguồn nhân lực là yếu tố quan trọng giúp doanh nghiệp phát triển bền vững. Tuy nhiên, một số doanh nghiệp gặp vấn đề với tỷ lệ nhân viên nghỉ việc cao, ảnh hưởng đến hiệu quả công việc và kinh doanh. Để giải quyết vấn đề này, nghiên cứu của tác giả Đại học Kinh tế Thành phố Hồ Chí Minh (UEH) đã phân tích dữ liệu nhân sự của IBM và áp dụng các mô hình máy học như Logistics Regression, K-Nearest Neighbors, Decision Tree, Support Vector Machine, Neural Network và Random Forest nhằm dự đoán nhân viên nghỉ việc. Kết quả từ nghiên cứu có thể giúp các tổ chức xây dựng chiến lược HRM hiệu quả hơn.

Bối cảnh nghiên cứu

Nguồn nhân lực có vai trò quyết định tới năng lực cạnh tranh, kết quả kinh doanh của doanh nghiệp và là tài sản quan trọng nhất, là cơ sở nền tảng phát triển và tồn tại của mỗi doanh nghiệp. Mỗi nhân viên dù đảm việc chức vụ lớn hay nhỏ nhưng vẫn đóng góp vào sự thành công chung của doanh nghiệp. Quản lý nguồn nhân lực (HRM) đóng vai trò quan trọng trong tổ chức vì chịu trách nhiệm giám sát tài nguyên quý giá nhất của doanh nghiệp – đó là lực lượng lao động. HRM có mối quan hệ mật thiết, ảnh hưởng to lớn đến sự thành công của một tổ chức hay doanh nghiệp. Bất kỳ tổ chức hoặc công ty nào cũng nhận thức rõ tầm quan trọng của nhân viên trong việc đạt được và duy trì năng lực lợi thế cạnh tranh. 

Trong môi trường kinh doanh hiện đại nhanh chóng và nhiều biến động, quản lý nhân sự hiệu quả ngày càng trở nên quan trọng hơn bao giờ hết. Sự thành công của một tổ chức phụ thuộc rất nhiều vào khả năng thu hút, giữ chân và phát triển một lực lượng lao động tài năng và cam kết làm việc lâu dài. Thế nên, nếu nhân viên rời bỏ hay nghỉ việc không chỉ làm công ty mất đi một nhân viên mà còn dẫn đến mất đi khách hàng của doanh nghiệp, điều này gây ảnh hưởng đến hoạt động kinh doanh sản xuất cũng như sự phát triển của các doanh nghiệp. Phần lớn các doanh nghiệp đều không muốn một nhân viên làm việc nhiều năm hoặc một nhân viên mới gia nhập vào công ty nộp đơn thôi việc, bởi sẽ tốn nhiều chi phí để tuyển dụng thay thế hoặc tốn nhiều chi phí và thời gian để đào tạo một nhân viên mới. 

Sự nghỉ việc của nhân viên là một quá trình bình thường bởi mỗi người nhân viên nghỉ việc điều có những lý do riêng của họ, có thể kể đến như: thu nhập, môi trường, thăng tiến, gia đình. Vì vậy, việc dự báo liệu rằng nhân viên có khả năng nghỉ việc hay không có vai trò quan trọng trong việc quản lý nhân sự ở bất kỳ doanh nghiệp nào, nó không chỉ ảnh hưởng tới việc quản trị và phát triển con người mà còn ảnh hưởng trực tiếp đến hoạt động kinh doanh của công ty nếu như nhiều nhân viên nghỉ việc trong một khoảng thời gian. Nếu có một mô hình dự báo tốt sẽ giúp doanh nghiệp hạn chế được việc này; bên cạnh đó, còn giúp bộ phận quản lý nhân sự, các nhà quản lý nắm được đặc điểm chung của nhân sự nghỉ việc để từ đó cải thiện các phúc lợi, môi trường làm việc, nâng cao sự trung thành, gắn đó của nhân viên tại công ty.

Nghiên cứu của tác giả UEH đề xuất mô hình dự đoán thông qua việc xử lý mất cân bằng dữ liệu và chọn lựa đặc trưng cùng với các thuật toán học máy để dự đoán khả năng nghỉ việc của nhân viên. Bằng cách tận dụng kết quả phân tích dự đoán, tổ chức có thể phát triển các chiến lược nhân sự chủ động dự đoán nhu cầu lực lượng lao động trong tương lai và giảm thiểu nguy cơ tiềm tàng. Mô hình đề xuất nhằm cung cấp thông tin một cách bao quát và toàn diện từ dữ liệu nhân sự, tổ chức có thể sử dụng để phát triển các chiến lược nhân sự hiệu quả và nâng cao hiệu suất tổ chức tổng thể. Mô hình có thể được tùy chỉnh để đáp ứng nhu cầu cụ thể của mỗi tổ chức và có thể được áp dụng để giải quyết một loạt các thách thức nhân sự, chẳng hạn như tuyển dụng, giữ chân, cam kết của nhân viên và quản lý hiệu suất. 

Mẫu nghiên cứu và phương pháp 

Nghiên cứu này tập trung vào việc dự đoán khả năng nghỉ việc của nhân viên trong các tổ chức. Đối tượng chính của nghiên cứu là lực lượng lao động của công ty IBM, dựa trên bộ dữ liệu được chia sẻ trên trang web Kaggle. Bộ dữ liệu này bao gồm các thông tin về nhân viên như tuổi, giới tính, trình độ học vấn, lĩnh vực làm việc, thâm niên, số lần thăng chức, mức lương, đánh giá hiệu suất và thông tin về việc nghỉ việc của nhân viên.

Nghiên cứu này được thực hiện dựa trên phương pháp nghiên cứu định tính và thực nghiệm. Phương pháp định tính được sử dụng để khảo sát và tìm hiểu các nghiên cứu thứ cấp, các công trình đã được công bố về việc ứng dụng máy học và phân tích dữ liệu trong lĩnh vực quản lý nguồn nhân lực, nhằm tìm ra các khoảng trống nghiên cứu để nâng cao hiệu suất và xây dựng mô hình thực nghiệm phù hợp. Phương pháp thực nghiệm tiến hành thu thập, phân tích mô tả dữ liệu và xây dựng mô hình bằng các phương pháp máy học. Sau đó, các kết quả thực nghiệm được đánh giá để tìm ra mô hình dự báo phù hợp.

Sau quá trình thực nghiệm, kết quả từ mô hình dự báo nhân viên rời bỏ đã cung cấp những thông tin quan trọng về khả năng nghỉ việc của nhân viên trong doanh nghiệp. Bằng việc sử dụng nhiều mô hình học máy như Logistic Regression, K-Nearest Neighbors, Decision Tree, Support Vector Machine, Neural Network và Random Forest, nghiên cứu đã xây dựng một mô hình dự báo chính xác. Bảng 1, Bảng 2 và Bảng 3 lần lượt trình bày kết quả thực nghiệm từ dữ liệu gốc, sau khi chọn lựa đặc trưng bằng phương pháp RFE, và sau khi áp dụng kết hợp RFE và SMOTE.

Dữ liệu gốc được sử dụng mà không qua bất kỳ bước tiền xử lý nào nhằm đánh giá hiệu suất ban đầu của các mô hình. Bảng dưới đây trình bày các chỉ số quan trọng của từng mô hình trên tập dữ liệu gốc.

Bảng 1. Kết quả thực nghiệm từ dữ liệu gốc

(Nguồn: Nhóm tác giả)

Số thứ tự

Model

Kết quả model từ dữ liệu gốc
Accuracy Precision Recall F1-Score
1 Logistic Regression 0.897 0.833 0.431 0.568
2 K-Nearest Neighbors 0.848 0.55 0.19 0.282
3 Decision Tree 0.802 0.358 0.328 0.342
4 SVM (Linear Kernel) 0.883 0.759 0.379 0.506
5 Neural Network 0.856 0.571 0.345 0.43
6 Random Forest 0.872 0.867 0.224 0.356 

Trong kết quả này, mô hình Logistic Regression và SVM (Linear Kernel) cho thấy độ chính xác cao nhất, với các giá trị lần lượt là 0.897 và 0.883. Tuy nhiên, các chỉ số Precision, Recall, và F1-Score lại thấp, đặc biệt là chỉ số Recall, cho thấy rằng các mô hình này chưa thực sự hiệu quả trong việc nhận diện các trường hợp dương tính.

Phương pháp Recursive Feature Elimination (RFE) được áp dụng nhằm chọn lọc ra các đặc trưng quan trọng nhất, với hy vọng cải thiện hiệu suất mô hình. Kết quả thu được từ dữ liệu sau khi áp dụng RFE như sau:

Bảng 2. Kết quả thực nghiệm sau khi áp dụng REF

(Nguồn: Nhóm tác giả)

Số thứ tự Model Kết quả model sau khi sử dụng REF
Accuracy Precision Recall F1-Score
1 Logistic Regression 0.889 0.815 0.379 0.518
2 K-Nearest Neighbors 0.859 0.65 0.224 0.333
3 Decision Tree 0.777 0.3 0.31 0.305
4 SVM (Linear Kernel) 0.886 0.833 0.345 0.488
5 Neural Network 0.872 0.657 0.397 0.495
6 Random Forest 0.872 0.762 0.276 0.405 

Qua bảng kết quả này, ta thấy rằng việc áp dụng RFE chỉ cải thiện nhẹ một số chỉ số, nhưng không đáng kể. Các mô hình Logistic Regression và SVM (Linear Kernel) vẫn cho kết quả tốt hơn các mô hình khác, nhưng chỉ số Recall vẫn còn thấp, nghĩa là nhiều điểm dữ liệu thực sự dương tính vẫn chưa được nhận diện đúng.

Để xử lý vấn đề mất cân bằng dữ liệu, phương pháp Synthetic Minority Over-sampling Technique (SMOTE) được áp dụng sau khi thực hiện RFE. Kết quả thu được như sau:

Bảng 3. Kết quả thực nghiệm sau khi áp dụng REF + SMOTE

(Nguồn: Nhóm tác giả)

Số thứ tự Model Kết quả model sau khi sử dụng REF + SMOTE
Accuracy Precision Recall F1-Score
1 Logistic Regression 0.912 0.934 0.893 0.913
2 K-Nearest Neighbors 0.896 0.902 0.896 0.899
3 Decision Tree 0.838 0.852 0.83 0.841
4 SVM (Linear Kernel) 0.917 0.953 0.884 0.917
5 Neural Network 0.911 0.931 0.893 0.912
6 Random Forest 0.922 0.969 0.877 0.921 

Kết quả này cho thấy một sự cải thiện đáng kể so với hai trường hợp trước. Độ chính xác (Accuracy) của các mô hình đều vượt mức 0.83, với nhiều mô hình đạt trên 0.90. Chỉ số F1-Score cũng tăng lên rõ rệt, đặc biệt là ở mô hình Logistic Regression, SVM (Linear Kernel), Neural Network và Random Forest, với các giá trị F1-Score lần lượt là 0.913, 0.917, 0.912 và 0.921. Điều này cho thấy các mô hình này không chỉ nhận diện tốt các trường hợp dương tính mà còn có sự cân bằng tốt giữa Precision và Recall.

Hàm ý chính sách cho các doanh nghiệp

Sự nghỉ việc của nhân viên là vấn đề nhức nhối của hầu hết các doanh nghiệp, bởi nó gây nhiều ảnh hưởng đến phát triển nguồn nhân lực và sự phát triển của doanh nghiệp nói chung. Do đó, việc có thể dự đoán nhân viên nào có khả năng nghỉ việc sẽ mang lại nhiều lợi ích cho các doanh nghiệp. Bên cạnh đó, nghiên cứu này đã thực nghiệm nhiều mô hình máy học để dự báo nhân viên có khả năng nghỉ việc tại công ty công nghệ IBM, dựa trên 06 thuật toán máy học bao gồm: LG, KNN, DT, SVM, NN, RF. Từ kết quả dự báo này, ban lãnh đạo sẽ có những đánh giá, phân tích để tìm ra đặc điểm của nhân sự nghỉ việc hoặc nhân sự trung thành; đối với đặc điểm chung của nhân sự nghỉ việc như thông tin cá nhân và kinh nghiệm làm việc, ban lãnh đạo có thể tham khảo để nhận định khả năng làm việc lâu dài với doanh nghiệp hay không. Đối với những đặc điểm chung của nhân sự trung thành, ban lãnh đạo có thể tiếp tục duy trì chính sách tốt hoặc cải thiện hơn nữa để nhân viên có điều kiện, môi trường làm việc và phúc lợi tốt nhất phù hợp với chiến lược phát triển và điều kiện ngân sách của doanh nghiệp.

Trước khi quyết định sử dụng bất kỳ mô hình phân tích dự đoán nào, việc phân tích và mô tả tình trạng của bộ dữ liệu là vô cùng quan trọng. Hiểu rõ các đặc điểm thống kê, phân phối và sự mất cân bằng giữa các nhóm dữ liệu giúp lựa chọn phương pháp tiếp cận và xử lý phù hợp, điều chỉnh và tối ưu hóa các tham số trong mô hình để nâng cao hiệu quả dự báo. Điều này hỗ trợ việc đưa ra các quyết định quản lý nhân sự và phát triển các chiến lược nhân sự chủ động.

Mô hình dự báo nên được tùy chỉnh để đáp ứng các nhu cầu cụ thể của từng tổ chức. Mô hình có thể được áp dụng để giải quyết một loạt các thách thức nhân sự, chẳng hạn như tuyển dụng, giữ chân nhân viên, cam kết của nhân viên và quản lý hiệu suất. Bằng cách này, tổ chức có thể phát triển các chiến lược nhân sự hiệu quả và nâng cao hiệu suất tổ chức tổng thể.

Cuối cùng, tận dụng kết quả phân tích dự báo để phát triển các chiến lược nhân sự chủ động, dự đoán nhu cầu lực lượng lao động trong tương lai và giảm thiểu các nguy cơ tiềm tàng. Bằng cách cung cấp những thông tin có giá trị về xu hướng lực lượng lao động, hành vi của nhân viên và các yếu tố ảnh hưởng đến cam kết, sự hài lòng và năng suất của nhân viên, phân tích dữ liệu nhân sự giúp tổ chức đưa ra quyết định thông minh, phù hợp và nâng cao hiệu suất tổ chức tổng thể.

Xem toàn bộ bài nghiên cứu Ứng dụng học máy trong phân tích dữ liệu quản trị nguồn nhân lực TẠI ĐÂY.

Tác giả: TS. Thái Kim Phụng – Đại học Kinh tế Thành phố Hồ Chí Minh; ThS. Nguyễn Phát Đạt – Ngân hàng Quốc tế VIB; ThS. Nguyễn Văn Hồ – Trường Đại học Kinh tế – Luật, ĐHQG TPHCM.

Đây là bài viết nằm trong Chuỗi bài lan tỏa nghiên cứu và kiến thức ứng dụng từ UEH với thông điệp “Research Contribution For All – Nghiên Cứu Vì Cộng Đồng”, UEH trân trọng kính mời Quý độc giả cùng đón xem bản tin UEH Research Insights tiếp theo.

Tin, ảnh: Tác giả, Ban Truyền thông và Phát triển đối tác UEH

Giọng đọc: Thanh Kiều

Chu kỳ giảm giá của đồng USD?

TS. Đinh Thị Thu Hồng và nhóm nghiên cứu

26 Tháng Sáu, 2021

Việt Nam cần kịch bản cho thương mại tương lai

ThS. Tô Công Nguyên Bảo

26 Tháng Sáu, 2021

Hệ thống tiền tệ tiếp theo như thế nào?

TS. Lê Đạt Chí và nhóm nghiên cứu

26 Tháng Sáu, 2021

Chuyển đổi số trong khu vực công tại Việt Nam

Khoa Quản lý nhà nước

26 Tháng Sáu, 2021

Cần đưa giao dịch công nghệ lên sàn chứng khoán

Bộ Khoa học và Công nghệ

5 Tháng Sáu, 2021

Thiết kế đô thị: tầm nhìn vững chắc cho đô thị bền vững

Viện Đô thị thông minh và Quản lý

5 Tháng Sáu, 2021

Phục hồi du lịch và nỗ lực thoát khỏi vòng xoáy ảnh hưởng bởi Covid-19

Viện Đô thị thông minh và Quản lý

5 Tháng Sáu, 2021

2021 sẽ là năm khởi đầu của chu kỳ tăng trưởng mới

PGS.TS Nguyễn Khắc Quốc Bảo

5 Tháng Sáu, 2021

Quỹ vaccine sẽ khả thi khi có người dân đóng góp

Phạm Khánh Nam, Việt Dũng

5 Tháng Sáu, 2021

Kích thích kinh tế, gia tăng vận tốc dòng tiền

Quách Doanh Nghiệp

5 Tháng Sáu, 2021

Đi tìm chiến lược hậu Covid-19 cho doanh nghiệp bảo hiểm Việt Nam

PGS TS Nguyễn Khắc Quốc Bảo, ThS Lê Văn

5 Tháng Sáu, 2021

Insurtech – Cơ hội và thách thức cho Startup Việt

Ths. Lê Thị Hồng Hoa

5 Tháng Sáu, 2021