Chào mừng đến với bài viết đầu tiên trong chuỗi bài Data Analysis với SQL! Là một trong những ngôn ngữ truy vấn được sử dụng phổ biến nhất trong lĩnh vực dữ liệu và phân tích dữ liệu. Với SQL, bạn có thể truy vấn cơ sở dữ liệu để lấy thông tin và phân tích dữ liệu, giúp bạn tìm ra những thông tin hữu ích và đưa ra quyết định có tính hiệu quả cho doanh nghiệp hoặc tổ chức của bạn.
Trong bài viết này, mình sẽ giới thiệu cho bạn cách sử dụng SQL để phân tích dữ liệu và trả lời các câu hỏi quan trọng về dữ liệu. Chúng ta sẽ bắt đầu từ các khái niệm cơ bản về SQL, sau đó tiến tới các câu truy vấn phức tạp để phân tích dữ liệu. Ngoài ra, mình cũng sẽ giới thiệu cho bạn những công cụ hỗ trợ để phân tích dữ liệu và biểu diễn dữ liệu một cách trực quan.
Dù bạn là một nhân sự lâu năm về dữ liệu hay mới bắt đầu tìm hiểu, chuỗi bài viết này sẽ giúp bạn hiểu thêm về data analysis và cách sử dụng SQL để phân tích dữ liệu và đưa ra quyết định hiệu quả cho tổ chức của bạn.
Nội dung tổng quan
Trong chuỗi bài này, sẽ có nhiều nội dung đan xe giữa lý thuyết và thực hành, cũng như một số kỹ năng cài đặt phần mềm cần thiết. Bao gồm các nội dung sau:
- SQL cơ bản và nâng cao.
- Tạo data model phù hợp với mục tiêu kinh doanh (informed decisions).
- Các công cụ trong data analytics.
- Trực quan hoá dữ liệu (data visualization).
Chuẩn bị công cụ
Chúng ta sẽ cần
- Cài đặt Docker
- Cài đặt PostgreSQL trên Docker
- Cài đặt Dbeaver
- Cài đặt Apache Superset trên Docker (Optional – có thể để sau)
- Đăng ký và tải dữ liệu mẫu trên Kaggle
Chuẩn bị dữ liệu
Nếu bạn sử dụng Dbeaver, thì bạn có thể tạo truy xuất vào PostgreSQL bạn đã tạo. Sau đó bạn tạo một schema mang tên brazilian-ecommerce nhé (trùng tên với dữ liệu mẫu của Kaggle).
Sau đó, tiến hành tải dữ liệu vào PostgreSQL bằng cách dùng lệnh Import Data trên Dbeaver
Bạn chọn import hết tất cả file CSV có trong dữ liệu mẫu, cùng với cấu hình như bên dưới. Lúc này Dbeaver sẽ tự động tạo giúp bạn các tables cần thiết để đưa dữ liệu vào.
Lưu ý: file dữ liệu olist_order_reviews_dataset.csv có một số dòng lỗi. Bạn có thể ấn Skip trong quá trình Import, hoặc giảm số lượng dòng mỗi lẫn lưu vào bảng để giảm bớt dòng bị Skip oan. Tuy nhiên, trong chuỗi bài này thì chúng ta sẽ chỉ dùng để thống kê, không cần chính xác lắm.
Tổng kết
Đây sẽ là bài mở đầu cho chuỗi bài data analysis với SQL, các bài viết được hoàn thiện trong tương lai sẽ được cập nhật tại bài viết này.
Mình hy vọng chuỗi bài viết sẽ được đón nhận, thông qua việc sự phản hồi của các bạn. Dù lớn hay nhỏ hay thậm chí là lỗi chính tả, đó sẽ là cách giúp mình hệ thống kiến thức một cách chính xác dưới góc nhìn của người đọc. Qua đó sẽ giúp chuỗi bài viết được cải thiện tốt hơn và sẽ giúp cho các bạn mới có mong muốn tiếp cận ngành dữ liệu mà không có điều kiện hoặc các bạn đã có kinh nghiệm cần ôn tập lại kiến thức.
Hãy đón chào chuỗi bài nhé.