Dự án học thuật / 08
Data Warehouse cho Doanh nghiệp Mỹ phẩm & Làm đẹp
Xây dựng kho dữ liệu theo Constellation Schema với Microsoft BI Stack
Tóm tắt nhanh
Tổng quan dự án
Nội dung nghiên cứu
Vấn đề: khi dữ liệu doanh nghiệp nằm rải rác ở nhiều hệ thống khác nhau
Nhóm xây dựng một hệ thống Data Warehouse cho doanh nghiệp kinh doanh mỹ phẩm và dịch vụ làm đẹp tại Hoa Kỳ. Ý tưởng doanh nghiệp do nhóm tự xây dựng, dữ liệu được tạo bằng AI và tiếp tục chỉnh sửa để phù hợp với các nghiệp vụ phân tích thực tế. Bài toán đặt ra: doanh nghiệp quản lý dữ liệu bán hàng, dịch vụ, khách hàng và marketing trên nhiều hệ thống khác nhau, gây khó khăn trong việc tổng hợp và phân tích đa chiều — ban lãnh đạo không thể có một cái nhìn thống nhất để ra quyết định.
Mục tiêu của đồ án là xây dựng một kho dữ liệu hợp nhất, hỗ trợ phân tích doanh thu, hiệu quả chiến dịch marketing, hiệu suất chi nhánh và hành vi khách hàng theo nhiều chiều dữ liệu khác nhau — đi theo đúng chuẩn Microsoft BI Stack: SSIS cho ETL, SSAS cho OLAP Cube, MDX để truy vấn, và Power BI để trực quan hóa.
Vai trò: nghiên cứu kiến trúc và đồng hành cùng quá trình triển khai của nhóm
Do khối lượng công việc giữa các môn học trong học kỳ khá lớn, nhóm phân chia trọng tâm thực hiện giữa các thành viên. Ở project này, vai trò chủ yếu tập trung vào:
- Nghiên cứu kiến trúc Data Warehouse và mô hình Constellation Schema
- Theo dõi quá trình triển khai của nhóm, hỗ trợ hoàn thiện đồ án
- Tìm hiểu quy trình làm việc với Microsoft BI Stack (SSIS, SSAS, MDX, Power BI)
Mặc dù không trực tiếp đảm nhận phần triển khai chính của pipeline, đây là project giúp lần đầu tiếp cận một quy trình Data Warehouse hoàn chỉnh — từ thiết kế mô hình dữ liệu, ETL, OLAP, đến trực quan hóa dữ liệu cuối cùng.
Quá trình: hiểu sự khác biệt giữa cơ sở dữ liệu giao dịch và kho dữ liệu phân tích
Quy trình thực hiện của nhóm đi theo các bước:
- Xây dựng bài toán doanh nghiệp và xác định nhu cầu phân tích
- Thiết kế mô hình Data Warehouse theo Constellation Schema, với các Fact và Dimension phục vụ phân tích bán hàng, dịch vụ và marketing
- Chuẩn bị và tổ chức dữ liệu nguồn
- Thực hiện quy trình ETL bằng SQL Server Integration Services (SSIS)
- Xây dựng OLAP Cube bằng SQL Server Analysis Services (SSAS)
- Thiết lập Hierarchy cho các Dimension
- Viết các truy vấn MDX phục vụ phân tích đa chiều
- Xây dựng Dashboard trên Power BI Desktop
- Hoàn thiện báo cáo và trình bày
Kết quả đạt được
- Hoàn thành hệ thống Data Warehouse theo mô hình Constellation Schema
- Xây dựng ba nhóm truy vấn MDX phục vụ các nhu cầu phân tích khác nhau
- Triển khai Dashboard trực quan trên Power BI
- Hiểu được quy trình xây dựng một hệ thống Business Intelligence hoàn chỉnh theo chuẩn Microsoft BI Stack
Bài học lớn nhất
Project giúp hiểu rõ cách tổ chức dữ liệu trong Data Warehouse khác biệt như thế nào so với cơ sở dữ liệu giao dịch (OLTP) — kho dữ liệu được tối ưu cho việc đọc và phân tích đa chiều, trong khi cơ sở dữ liệu giao dịch tối ưu cho việc ghi và xử lý nghiệp vụ hằng ngày. Quy trình ETL và vai trò của SSIS trong việc trích xuất, biến đổi, nạp dữ liệu cũng là một khái niệm được hiểu sâu hơn, cùng với khái niệm Cube và OLAP trong phân tích dữ liệu đa chiều, và vai trò của MDX trong việc khai thác các chiều dữ liệu đó.
Hạn chế
Mức độ tham gia triển khai trong project còn hạn chế do nhóm phân chia khối lượng công việc giữa nhiều môn học cùng lúc. Chưa có cơ hội trực tiếp xây dựng toàn bộ pipeline ETL hoặc phát triển Cube từ đầu, và chưa triển khai trên môi trường Cloud hoặc các nền tảng dữ liệu hiện đại hơn.
Nếu làm lại
- Trực tiếp xây dựng toàn bộ Data Warehouse thay vì chỉ tham gia nghiên cứu
- Thiết kế ETL theo hướng tự động hóa nhiều hơn
- Áp dụng Slowly Changing Dimension (SCD) phù hợp cho các Dimension thay đổi theo thời gian
- Bổ sung Incremental Load thay vì nạp toàn bộ dữ liệu mỗi lần chạy ETL
- Thử nghiệm triển khai trên Microsoft Fabric hoặc Azure Data Factory
- Xây dựng Dashboard với các KPI phục vụ ra quyết định thực tế hơn
Bắt đầu trò chuyện
Bạn có một câu hỏi đáng để cùng khám phá?
Tôi sẵn sàng trao đổi về các vị trí dữ liệu, cơ hội hợp tác chỉn chu và câu chuyện phía sau nghiên cứu này.
Liên hệ