[Podcast] Chỉ Số Giá Tiêu Dùng Từ Góc Nhìn Khai Thác Dữ Liệu Lớn (Big Data)

17 Tháng Mười Một, 2021

Giá tiêu dùng và chỉ số giá tiêu dùng đóng vai trò rất quan trọng trong công tác quản lý và điều hành các chính sách vĩ mô của Nhà nước, góp phần phát triển hoạt động sản xuất kinh doanh và trao đổi thương mại quốc tế. Tại các quốc gia phát triển trên thế giới hiện nay đã ứng dụng khai thác dữ liệu lớn (big data) để tính chỉ số giá tiêu dùng và đạt được những hiệu quả nổi trội. Nhận thấy sự cần thiết và phù hợp xu hướng thế giới, với mong muốn đóng góp một phần vào kinh nghiệm khai thác dữ liệu lớn tại Việt Nam, nhóm tác giả Trường Công nghệ và Thiết kế UEH đã tiến hành nghiên cứu đề tài: “Khai thác dữ liệu lớn trong việc tính chỉ số giá tiêu dùng ở Việt Nam (trường hợp Thành phố Hồ Chí Minh)”. Bài viết giới thiệu phương pháp thu thập giá từ các trang web để tính toán chỉ số giá tiêu dùng, các thách thức và đưa ra các khuyến nghị nhằm cải thiện chất lượng trong việc thu thập thông tin giá tiêu dùng hiện nay.

Cách tiếp cận chỉ số giá tiêu dùng truyền thống hiện nay

Giá tiêu dùng và chỉ số giá tiêu dùng đóng vai trò rất quan trọng trong công tác quản lý và điều hành các chính sách vĩ mô của Nhà nước như chính sách về quản lý tài chính tiền tệ, kiềm chế lạm phát, điều chỉnh lãi suất ngân hàng, điều chỉnh tỷ giá, ban hành các chính sách phát triển kinh tế xã hội theo vùng miền, các chính sách tiền lương,… góp phần phát triển hoạt động sản xuất kinh doanh và trao đổi thương mại quốc tế.

Chỉ số giá tiêu dùng (CPI) là chỉ tiêu tương đối (tính bằng %) phản ánh xu hướng và mức độ biến động giá tiêu dùng theo thời gian của các mặt hàng trong rổ hàng hóa và dịch vụ tiêu dùng đại diện. Giá tiêu dùng là số tiền do người tiêu dùng phải chi trả khi mua một đơn vị hàng hóa hoặc dịch vụ phục vụ trực tiếp cho đời sống hàng ngày. Giá tiêu dùng được biểu hiện bằng giá bán lẻ hàng hóa trên thị trường hoặc giá dịch vụ phục vụ sinh hoạt đời sống dân cư. Trong trường hợp hàng hóa hoặc dịch vụ không có giá niêm yết, người mua có thể mặc cả thì giá tiêu dùng là giá người mua thực trả sau khi thỏa thuận với người bán.

Tại Việt Nam, thông tin thống kê về chỉ số giá tiêu dùng được thu thập từ cuộc điều tra giá tiêu dùng do Tổng cục Thống kê triển khai ở cả 63 tỉnh, thành phố và được công bố hằng tháng vào các ngày cuối tháng. Trong phương án điều tra giá tiêu dùng giai đoạn 2014-2019, ngành Thống kê thực hiện cuộc điều tra giá tiêu dùng bằng phương pháp chọn mẫu đối với rổ hàng hóa, dịch vụ gồm 654 mặt hàng tại các sạp, quầy hàng tại các chợ, điểm bán hàng (chuyên bán lẻ), các cơ sở kinh doanh dịch vụ, … có địa điểm kinh doanh ổn định. Hàng hóa và dịch vụ trong rổ hàng hóa được chia làm 3 nhóm chính: Nhóm thứ nhất chỉ điều tra 1 lần trong tháng và sẽ điều tra vào ngày 10 hàng tháng; nhóm thứ hai sẽ điều tra 3 lần trong tháng vào các ngày 1, 10, 20 hàng tháng; nhóm thứ ba theo số lần phát sinh trong tháng.

Tuy vậy, phương pháp điều tra truyền thống cũng còn một số bất cập. Thứ nhất, công tác thu thập tại địa bàn gặp nhiều khó khăn, đặc biệt khi thời gian thu thập đúng vào những ngày nghỉ Lễ, Tết, thời gian địa phương thực hiện giãn cách xã hội… khiến phần lớn các cơ sở kinh doanh không mở cửa bán hàng và giá cả hàng hóa, dịch vụ thường có sự biến động lớn tại những thời điểm này cũng là một hạn chế cần phải xử lý. Thứ hai, vẫn còn phát sinh sai số phi chọn mẫu trong quá trình triển khai thu thập. Thứ ba, khó khăn trong việc xử lý đối với những hàng hóa và dịch vụ có chu kỳ sống ngắn hạn, không tồn tại vào thời điểm điều tra và nhiều hàng hóa mới phát sinh trong kỳ điều tra. Ngoài ra, những vấn đề về kinh phí điều tra, việc chọn mẫu và tính toán số lượng các điểm bán hàng bình ổn ở địa phương, việc xử lý các cửa hàng trong mẫu điều tra ngày càng thu hẹp kinh doanh, thị phần giảm sút … cũng là những khó khăn khi triển khai thu thập số liệu theo phương pháp điều tra truyền thống.

Tiếp cận chỉ số giá tiêu dùng từ khai thác Dữ liệu lớn (Big Data) trong kỷ nguyên số

Nền tảng của cuộc cách mạng công nghiệp 4.0, cùng với sự phát triển của kinh tế số đã tạo ra những nguồn dữ liệu mới – đây là cơ hội tuyệt vời cho ngành thống kê cải thiện chất lượng, nâng cao hiệu quả công tác thu thập thông tin.

Nguồn dữ liệu giá thu thập trực tuyến này sẽ giúp công tác thống kê giá đo lường chính xác hơn sự thay đổi giá, mở rộng cỡ mẫu, xác định chính xác các mặt hàng thay thế theo hành vi người tiêu dùng, đo lường chính xác sự thay đổi giá, giảm hoặc loại bỏ sự phụ thuộc từ người trả lời và giảm chi phí điều tra. Ngoài ra, nguồn dữ liệu thu thập từ các trang Web sẽ giúp cải thiện thời gian thu thập, dữ liệu chi tiết hơn, nhiều hơn và đa dạng hơn, tần suất thu thập dữ liệu nhiều hơn mà không gia tăng chi phí.

Để tìm ra quy trình và phương thức tính toán Chỉ số giá tiêu dùng theo cách tiếp cận dữ liệu lớn, nhóm tác giả đã tiến hành nghiên cứu, thu thập thông tin từ 28 trang web của các công ty và các sàn thương mại điện tử với 246.069 số lượng mặt hàng.

Nguồn dữ liệu giá thu thập trực tuyến sẽ mang lại cơ hội tốt cho ngành thống kê xử lý các thách thức mà thống kê giá tiêu dùng truyền thống đang đối mặt. Phương pháp thu thập giá từ dữ liệu lớn có số lượng mặt hàng lớn hơn rất nhiều so với phương pháp truyền thống, khoảng 250 ngàn mặt hàng vào 3 kỳ/tháng nên chỉ số CPI được tính toán từ dữ liệu lớn thể hiện biến động giá của thị trường nhạy hơnổn định hơn. Thực tế, nếu một mặt hàng trong rổ hàng hóa của CPI truyền thống (đặc biệt là mặt hàng chỉ thu thập 1 kỳ/1 tháng) biến động mạnh (tăng cao hoặc giảm sâu) thì sẽ ảnh hưởng rất lớn đến CPI chung. Trong khi đó, đối với dữ liệu lớn sẽ không ảnh hưởng nhiều vì có rất nhiều hàng hóa khác cùng nhóm được thu thập nhưng không có sự biến động lớn.

Ngoài ra, phương pháp thu thập từ dữ liệu lớn có tính đại diện mẫu cao hơn vì thu thập giá của tất cả các mặt hàng, do đó có thể xem mẫu gần như là đại diện cho toàn bộ các hàng hóa có trên thị trường. Ngược lại, đối với CPI truyền thống, rổ hàng hóa được cập nhật theo chu kỳ 5 năm nên có rất nhiều mặt hàng tiêu dùng phổ biến xuất hiện trên thị trường nhưng chưa được cập nhật, hơn nữa rổ hàng hóa cũng chỉ có 654 mặt hàng đại diện tiêu dùng phổ biến nên cũng thiếu rất nhiều so với thực tế biến động liên tục của thị trường.

Vận hành và khai thác nguồn dữ liệu trong tính toán chỉ số giá tiêu dùng

Khai thác dữ liệu lớn phục vụ công tác thống kê là một nội dung mới, nguồn nhân lực trong lĩnh vực này còn thiếu về số lượng và cũng có những hạn chế nhất định về chất lượng. Công việc vận hành hệ thống, phát triển phần mềm, khai phá dữ liệu… là các kỹ năng cần thiết để thực hiện tốt công việc này. Do đó, các cơ sở giáo dục cần nâng cao chất lượng công tác đào tạo, chương trình đào tạo phải bám sát thực tiễn, đáp ứng được nhu cầu công việc. Trên cơ sở đó giúp các học viên có thể xử lý được các bài toán thực tiễn về dữ liệu lớn khi được tuyển dụng. Đồng thời, Nhà nước cần xây dựng cơ chế phối hợp, tạo điều kiện thuận lợi để tạo mối quan hệ mật thiết giữa các đơn vị sử dụng lao động với Nhà trường.

Về công tác tổ chức đào tạo, đối với ngành thống kê cần tập trung đào tạo, nâng cao năng lực, kỹ năng, nâng cao trình độ ứng dụng công nghệ thông tin, các kiến thức, kỹ năng có liên quan đến dữ liệu lớn cho cán bộ làm công tác nghiệp vụ cũng như cho người làm công nghệ thông tin trong toàn ngành. Nghiên cứu ứng dụng khoa học dữ liệu và các công nghệ tiên tiến hiện đại, áp dụng phù hợp cho công tác thống kê tại Việt Nam.

Khi đề cập đến dữ liệu lớn, một khái niệm cũng thường hay được nhắc đến là kỹ thuật học máy (Machine learning – ML), dạy cho máy tính làm được những gì mà một cách tự nhiên con người có thể làm được, chủ yếu đó là việc học hỏi từ kinh nghiệm. Hiện nay, nhóm tác giả thực hiện thủ công công đoạn mã hóa các mặt hàng theo danh mục hàng hóa và dịch vụ đại diện (mã hàng hóa cấp 5) của chỉ số giá tiêu dùng. Phân ngành kinh tế và mã hóa dữ liệu là công việc thường xuyên, cần thiết và rất quan trọng trong công tác thống kê để đảm bảo tất cả dữ liệu thu thập có thể so sánh được với nhau. Do đó nếu nghiên cứu và ứng dụng được thuật toán học máy trong công tác mã hóa dữ liệu thì khối lượng công việc sẽ giảm đi nhiều. Theo nhóm tác giả đề xuất, đầu tiên, có thể chọn một mẫu nhỏ trong tập dữ liệu để các chuyên gia mã hóa, sau đó tiến hành các thuật toán giúp cho máy học hỏi công việc, kinh nghiệm từ mô hình đã được mã hóa của các chuyên gia, cuối cùng sử dụng kỹ thuật học máy này để phân loại hay mã hóa phần dữ liệu còn lại bằng những công việc đã học hỏi từ việc mã hóa của chuyên gia. Trong quá trình triển khai, để đảm bảo độ chính xác, độ tin cậy của dữ liệu đã được mã hóa, có thể tiến hành lặp lại nhiều lần thao tác: chọn một mẫu nhỏ, cho máy học, mở rộng mẫu cho máy mã hóa, kiểm tra mẫu, nếu tỷ lệ đạt yêu cầu thì triển khai làm toàn bộ, nếu tỷ lệ chưa đạt yêu cầu thì tiến hành mở rộng mẫu để máy học thêm… Việc mã hóa tự động như quy trình ở trên sẽ giúp cho việc tổng hợp và công bố số liệu sớm hơn và như vậy số liệu công bố sẽ có giá trị hơn đối với người dùng.

Machine Learning một khái niệm được nhắc đến khi đề cập đến dữ liệu lớn (Big data)

Bên cạnh đó, việc khai thác, phân tích dữ liệu lớn đòi hỏi phải có cơ sở hạ tầng công nghệ thông tin phát triển mạnh và các công nghệ nổi trội. Muốn phát triển lĩnh vực này cần phải tập trung đầu tư phát triển về hạ tầng tính toán: nâng cấp hạ tầng công nghệ thông tin, tiến hành thuê hạ tầng công nghệ thông tin phục vụ hệ thống thu thập thông tin bằng phiếu điện tử; nâng cao năng lực Trung tâm máy chủ; chú trọng triển khai hệ thống thu thập thông tin trực tuyến trên các trang web và xử lý thông tin theo thời gian thực; xây dựng kiến trúc tổng thể để hệ thống có độ mở, sẵn sàng tích hợp và nâng cấp mở rộng hệ thống khi cần thiết.

Về kinh phí, hầu hết các hệ thống công nghệ thông tin hiện đại thường có chi phí cao, bên cạnh đó còn có các chi phí phát sinh kèm theo như: chi phí vận hành, duy trì hệ thống đặc biệt là chi phí về bản quyền phần mềm, thiết bị an toàn, an ninh mạng, … Do đó khi triển khai việc khai thác thông tin từ dữ liệu lớn đòi hỏi cần phải xem xét tính hiệu quả trong việc đầu tư.

Ngoài ra, cần chú trọng đến việc bổ sung thêm các nguồn dữ liệu thay thế khác như nguồn dữ liệu từ các doanh nghiệp cung cấp và phát triển thị trường thương mại điện tử cũng là những yếu tố góp phần nâng cao chất lượng chỉ số giá tiêu dùng.

Cùng với sự phát triển của kỷ nguyên số, sự ra đời của dữ liệu lớn chính là cơ hội để thúc đẩy nền kinh tế phát triển nếu chúng ta biết cách tận dụng triệt để.

Xem đầy đủ bài nghiên cứu “Khai thác dữ liệu lớn trong việc tính chỉ số giá tiêu dùng” của nhóm tác giả tại đây.

Nhóm Tác giả: TS. Hà Văn Sơn – Trường Công nghệ và Thiết kế UEH, ThS. Nguyễn Thanh Bình – Cục Thống Kê TP.HCM. 

Đây là bài viết nằm trong Chuỗi bài lan tỏa nghiên cứu và kiến thức ứng dụng từ UEH, trân trọng kính mời Quý độc giả đón xem Bản tin kiến thức KINH TẾ SỐ #14  “Thành phố thông minh lấy con người làm trung tâm”.

Tin, ảnh: Nhóm tác giả, Phòng Marketing – Truyền thông.

Giọng đọc: ThS. Phạm Nguyễn Hoài – Viện ISCM.

Chu kỳ giảm giá của đồng USD?

TS. Đinh Thị Thu Hồng và nhóm nghiên cứu

26 Tháng Sáu, 2021

Việt Nam cần kịch bản cho thương mại tương lai

ThS. Tô Công Nguyên Bảo

26 Tháng Sáu, 2021

Hệ thống tiền tệ tiếp theo như thế nào?

TS. Lê Đạt Chí và nhóm nghiên cứu

26 Tháng Sáu, 2021

Chuyển đổi số trong khu vực công tại Việt Nam

Khoa Quản lý nhà nước

26 Tháng Sáu, 2021

Cần đưa giao dịch công nghệ lên sàn chứng khoán

Bộ Khoa học và Công nghệ

5 Tháng Sáu, 2021

Thiết kế đô thị: tầm nhìn vững chắc cho đô thị bền vững

Viện Đô thị thông minh và Quản lý

5 Tháng Sáu, 2021

Phục hồi du lịch và nỗ lực thoát khỏi vòng xoáy ảnh hưởng bởi Covid-19

Viện Đô thị thông minh và Quản lý

5 Tháng Sáu, 2021

2021 sẽ là năm khởi đầu của chu kỳ tăng trưởng mới

PGS.TS Nguyễn Khắc Quốc Bảo

5 Tháng Sáu, 2021

Quỹ vaccine sẽ khả thi khi có người dân đóng góp

Phạm Khánh Nam, Việt Dũng

5 Tháng Sáu, 2021

Kích thích kinh tế, gia tăng vận tốc dòng tiền

Quách Doanh Nghiệp

5 Tháng Sáu, 2021

Đi tìm chiến lược hậu Covid-19 cho doanh nghiệp bảo hiểm Việt Nam

PGS TS Nguyễn Khắc Quốc Bảo, ThS Lê Văn

5 Tháng Sáu, 2021

Insurtech – Cơ hội và thách thức cho Startup Việt

Ths. Lê Thị Hồng Hoa

5 Tháng Sáu, 2021