Data Analysis với SQL – Phần 1: Mở đầu

Nội dung

Chào mừng đến với bài viết đầu tiên trong chuỗi bài Data Analysis với SQL! Là một trong những ngôn ngữ truy vấn được sử dụng phổ biến nhất trong lĩnh vực dữ liệu và phân tích dữ liệu. Với SQL, bạn có thể truy vấn cơ sở dữ liệu để lấy thông tin và phân tích dữ liệu, giúp bạn tìm ra những thông tin hữu ích và đưa ra quyết định có tính hiệu quả cho doanh nghiệp hoặc tổ chức của bạn.

Trong bài viết này, mình sẽ giới thiệu cho bạn cách sử dụng SQL để phân tích dữ liệu và trả lời các câu hỏi quan trọng về dữ liệu. Chúng ta sẽ bắt đầu từ các khái niệm cơ bản về SQL, sau đó tiến tới các câu truy vấn phức tạp để phân tích dữ liệu. Ngoài ra, mình cũng sẽ giới thiệu cho bạn những công cụ hỗ trợ để phân tích dữ liệu và biểu diễn dữ liệu một cách trực quan.

Dù bạn là một nhân sự lâu năm về dữ liệu hay mới bắt đầu tìm hiểu, chuỗi bài viết này sẽ giúp bạn hiểu thêm về data analysis và cách sử dụng SQL để phân tích dữ liệu và đưa ra quyết định hiệu quả cho tổ chức của bạn.

Data Analysis với SQL
data analyst with sql

Nội dung tổng quan

Trong chuỗi bài này, sẽ có nhiều nội dung đan xe giữa lý thuyết và thực hành, cũng như một số kỹ năng cài đặt phần mềm cần thiết. Bao gồm các nội dung sau:

  1. SQL cơ bản và nâng cao.
  2. Tạo data model phù hợp với mục tiêu kinh doanh (informed decisions).
  3. Các công cụ trong data analytics.
  4. Trực quan hoá dữ liệu (data visualization).

Chuẩn bị công cụ

Chúng ta sẽ cần

Chuẩn bị dữ liệu

Nếu bạn sử dụng Dbeaver, thì bạn có thể tạo truy xuất vào PostgreSQL bạn đã tạo. Sau đó bạn tạo một schema mang tên brazilian-ecommerce nhé (trùng tên với dữ liệu mẫu của Kaggle).

Sau đó, tiến hành tải dữ liệu vào PostgreSQL bằng cách dùng lệnh Import Data trên Dbeaver

Bạn chọn import hết tất cả file CSV có trong dữ liệu mẫu, cùng với cấu hình như bên dưới. Lúc này Dbeaver sẽ tự động tạo giúp bạn các tables cần thiết để đưa dữ liệu vào.

Lưu ý: file dữ liệu olist_order_reviews_dataset.csv có một số dòng lỗi. Bạn có thể ấn Skip trong quá trình Import, hoặc giảm số lượng dòng mỗi lẫn lưu vào bảng để giảm bớt dòng bị Skip oan. Tuy nhiên, trong chuỗi bài này thì chúng ta sẽ chỉ dùng để thống kê, không cần chính xác lắm.

Tổng kết

Đây sẽ là bài mở đầu cho chuỗi bài data analysis với SQL, các bài viết được hoàn thiện trong tương lai sẽ được cập nhật tại bài viết này.

Mình hy vọng chuỗi bài viết sẽ được đón nhận, thông qua việc sự phản hồi của các bạn. Dù lớn hay nhỏ hay thậm chí là lỗi chính tả, đó sẽ là cách giúp mình hệ thống kiến thức một cách chính xác dưới góc nhìn của người đọc. Qua đó sẽ giúp chuỗi bài viết được cải thiện tốt hơn và sẽ giúp cho các bạn mới có mong muốn tiếp cận ngành dữ liệu mà không có điều kiện hoặc các bạn đã có kinh nghiệm cần ôn tập lại kiến thức.

Hãy đón chào chuỗi bài nhé.

Bài viết liên quan

SQL trong Data Analysis: Procedure và Function – 2 công cụ không thể thiếu

Xin chào các bạn đã quay trở lại chuỗi bài SQL trong Data Analysis...

Tự học Data Analyst: Tổng hợp chuỗi bài SQL 101 trong Data Analysis

Trong bài viết này, chúng ta sẽ tổng hợp các bài viết thành một...

SQL trong Data Analysis: Hiểu rõ và ứng dụng đệ quy (Recursive trong PostgreSQL)

Trong thế giới của cơ sở dữ liệu quan hệ, các truy vấn đệ...

[Phân Tích Dữ Liệu Với Python] Tập 1: Làm Quen Với Pandas

Trong thời đại tiến bộ của khoa học dữ liệu, khả năng phân tích...
spot_img