Xin chào các bạn, bài viết này được viết ra nhằm mục đích giới thiệu các thuật ngữ và định nghĩa của chúng trong lĩnh vực Data. Bài viết bao gồm 66 thuật ngữ, tuy nhiên đây không phải là tất cả mà chỉ ở mức tương đối phổ biển để mọi người có thể hiểu thêm hoặc ôn lại bài.
66 thuật ngữ và định nghĩa
Với phân loại từ 1 -> 18 là các thuật ngữ chung. Từ 19 -> 32 là các thuật ngữ trong Data Governance/Management (quản trị/quản lý dữ liệu). Từ 33 -> 54 là các thuật ngữ cho Data Engineer. Từ 54 -> 66 là các thuật ngữ chung cho Data Science (bao gồm Analytics/Analysis/AI-ML).
- Data: Tên gọi chung của các sự kiện hoặc số liệu thô được sử dụng để hỗ trợ việc ra quyết định.
- Information: Các thông tin được tập hợp và trích xuất sau khi xử lý dữ liệu.
- Record: Một đơn vị thông tin cơ bản trong cơ sở dữ liệu.
- Dataset: Tập hợp dữ liệu, thường được tổ chức cho một mục đích cụ thể. Ví dụ dataset về các doanh thu của các nhóm hàng, hoặc dataset về phân bổ khách hàng theo vùng miền.
- Database: Một tập hợp danh sách các tập dữ liệu có cấu trúc được lưu trữ và sắp xếp để tiện cho việc truy xuất.
- Big Data: Được đánh giá dựa trên 5Vs: bao gồm Volume(độ lớn), Velocity(tốc độ xử lý dữ liệu), Variety (độ đa dạng của dữ liệu), Veracity (tính chính xác) và Value(giá trị). Big data nhằm chỉ đến việc tập hợp dữ liệu từ rất nhiều nguồn, sau đó sử dụng các phương pháp nghiệp vụ cả về Data Engineering, Statistical và Analytical để phân tích tìm ra xu hướng, các mối liên hệ của các đối tượng, ví dụ hành vi mua hàng giữa Online và Offline.
- Data Analytics: là một lĩnh vực đa ngành, đòi hỏi nhân sự có nhiều kỹ năng ở các lĩnh vực khác nhau. Bao gồm nhưng không giới hạn: khoa học máy tính, engineering, toán học, machine learning, các công cụ xử lý data hiện nay, các kiến thức trong lĩnh vực nghiên cứu (nhân sự, marketing, eCommerce, logistic…). Giải quyết các bài toán như tìm hiểu/khai phá dữ liệu, thống kê, dự đoán…
- Data Analysis: Thuật ngữ này hay được dùng chung hoặc thay thế qua lại với Data Analytics. Tuy nhiên Data Analysis là một phần trong Data Analytics, mà ở đó Analysis sẽ chỉ tập trung về tìm hiểu dữ liệu ở quá khứ kết hợp cùng các kiến thức chuyên ngành để giải đáp các câu hỏi hiện tại hoặc có thể dự đoán tương lại.
- Data Engineering: Quá trình xây dựng, duy trì cơ sở hạ tầng và hệ thống cần thiết để lưu trữ, xử lý và phân tích dữ liệu.
- Data Science: Một lĩnh vực liên ngành kết hợp toán học, thống kê và khoa học máy tính để rút ra những hiểu biết sâu sắc từ dữ liệu.
- Machine Learning: Một loại trí tuệ nhân tạo bao gồm các thuật toán tự động học hỏi từ dữ liệu và cải thiện hiệu suất của chúng theo thời gian.
- Artificial Intelligence: Khả năng máy tính thực hiện các tác vụ thường yêu cầu trí thông minh của con người, chẳng hạn như phân tích hình ảnh, nhận dạng giọng nói, ra quyết định và phiên dịch.
- SQL: viết tắt của Structured Query Language, là loại ngôn ngữ dùng để xử lý, truy xuất dữ liệu từ các loại cơ sở dữ liệu quan hệ (RDBMS).
- RDBMS: là viết tắt của RDBMS stands for Relational Database Management System (Hệ thống quản lý cơ sở dữ liệu quan hệ). Tất cả thông tin trong RDBMS được lưu trữ đúng cách dưới dạng bảng. Các hệ thống ví dụ về RDBMS bao gồm SQL Server, PostgresSQL, Oracle, MySQL..
- NoSQL: Là loại hệ quản trị cơ sở dữ liệu có thể lưu trữ và xử lý các loại dữ liệu không theo cấu trúc bảng. NoSQL viết tắt của Not Only SQL, một số cơ sở dữ liệu NoSQL có thể hỗ trợ việc sử dụng SQL.
- Real-Time Data: Dữ liệu được xử lý và phân tích, tính toán trong thời gian thực, giúp các ứng dụng từ data có thể triển khai ngay lập tức với người dùng. Ví dụ báo cáo thời gian thực, recommendation sản phẩm cho người dùng chỉ với vài lượt click trên website.
- Time Series Analysis: Quá trình phân tích dữ liệu được đánh dấu thời gian để xác định các mẫu và xu hướng theo thời gian.
- Time Series Data: Dữ liệu được thu thập và phân tích theo thời gian, chẳng hạn như giá cổ phiếu hoặc các kiểu thời tiết.
- Data Management: Quá trình tổ chức, lưu trữ và duy trì dữ liệu để đảm bảo tính chính xác, đầy đủ và nhất quán. Dữ liệu của một tổ chức thực tế là rất nhiều, để đảm bảo tổ chức đó có thể sử dụng dữ liệu một cách tối ưu thì quá trình này không thể thiếu.
- Data Governance: Ngoài việc quản lý dữ liệu, đội ngũ data cũng sẽ có công việc về quản trị dữ liệu. Bao gồm các chính sách và thủ tục cần được áp dụng trong tổ chức đó. Ví dụ: nhân viên không được quyền tải danh sách khách hàng hoặc xem các báo cáo mang tính chiến lược.
- Metadata: Dữ liệu cung cấp thông tin về dữ liệu khác, chẳng hạn như định nghĩa, mối quan hệ và ràng buộc.
- Master Data: Các đối tượng dữ liệu quan trọng được chia sẻ trên nhiều hệ thống và quy trình kinh doanh. Ví dụ: Master Data của Product, danh sách phân loại sản phẩm, hệ thống cửa hàng…
- Data Profiling: Là quá trình kiểm tra dữ liệu có sẵn để hiểu rõ về cấu trúc, nội dung dữ liệu và mối quan hệ của loại dữ liệu với các dữ liệu khác.
- Data Quality: Mức độ mà dữ liệu đáp ứng các yêu cầu cụ thể về độ chính xác, đầy đủ và nhất quán.
- Data Lineage: Bản ghi lịch sử của các chuyển đổi dữ liệu, bao gồm nguồn, đích và bất kỳ thay đổi nào được thực hiện ở giữa nguồn và đích.
- Data Visualization: Quá trình biểu diễn dữ liệu ở định dạng hình ảnh đồ họa để dễ hiểu và dễ diễn giải hơn.
- Data Exchange: Quá trình trao đổi dữ liệu giữa các hệ thống hoặc ứng dụng khác nhau.
- Data Access/Sharing: Khả năng xem hoặc truy xuất dữ liệu.
- Data Privacy: Việc bảo vệ thông tin cá nhân khỏi bị truy cập và sử dụng trái phép.
- Data Sampling: Quá trình chọn một phần của tập dữ liệu lớn hơn để phân tích.
- Data Validation: Quá trình xác minh tính chính xác và đầy đủ của dữ liệu.
- Data Security: Việc bảo vệ dữ liệu khỏi bị truy cập, sử dụng, tiết lộ, gián đoạn, sửa đổi hoặc phá hủy trái phép.
- Data Backup: Quá trình tạo bản sao dữ liệu để bảo vệ khỏi mất mát hoặc hư hỏng.
- Data Cleansing: Quá trình loại bỏ những dữ liệu không chính xác và không nhất quán. Ví dụ: loại bỏ những đơn hàng bị phát sinh khi vận hành sai hoặc khách hàng hủy bỏ đơn hàng vì lý do nào đó.
- Data Compression: Quá trình giảm kích thước dữ liệu để lưu trữ và truyền tải hiệu quả hơn.
- Data Recovery: Quá trình khôi phục dữ liệu từ bản sao lưu trong trường hợp mất mát hoặc hư hỏng.
- Data Modeling: Quá trình thiết kế cấu trúc dữ liệu, tạo mối quan hệ và sự ràng buộc giữa chúng. Cũng có thể ngắn gọn là thiết kế cơ sở dữ liệu.
- Data Encryption: Quá trình chuyển đổi dữ liệu thành định dạng được mã hóa giúp dữ liệu có tính bảo mật.
- Data Architecture: Là công việc thiết kế kiến trúc cho việc lưu trữ, xử lý và sử dụng dữ liệu. Ví dụ dữ liệu bán hàng 05 năm cần được lưu trữ và xử lý một số bước để tối ưu hóa cho việc sử dụng.
- Distributed Data: Dữ liệu được lưu trữ và xử lý trên nhiều thiết bị, vị trí hoặc hệ thống..
- Data Normalization: Quá trình tổ chức dữ liệu thành một định dạng nhất quán và có tổ chức để giảm thiểu sự dư thừa và cải thiện chất lượng dữ liệu. Ví dụ: các dữ liệu bán hàng của Product sẽ được lưu trữ vào một bảng dữ liệu để tái sử dụng một cách hiệu quả thay vì phát sinh dữ liệu theo mỗi yêu cầu dù các yêu cầu này chỉ khác nhau một chút.
- Structured Data: Dữ liệu được sắp xếp thành một định dạng xác định, chẳng hạn như bảng hoặc file CSV hoặc dữ liệu trên Excel.
- Unstructured Data: Dữ liệu không có định dạng xác định, chẳng hạn như văn bản, hình ảnh hoặc âm thanh.
- Semi-Structured Data: Dữ liệu có một số cấu trúc, nhưng không phải là định dạng hoàn chỉnh, không giống dữ liệu có cấu trúc bảng. Ví dụ file XML hoặc JSON.
- Data Integration: Quá trình kết hợp dữ liệu từ nhiều nguồn vào một nơi nào đó và tiến hành xây dựng các tệp dữ liệu phục vụ theo nhu cầu. Lưu ý: trong phát triển phần mềm thì thuật ngữ này ám chỉ việc tích hợp giữa hệ thống này và hệ thống để 02 hệ thống này trao đổi với nhau dựa trên nhu cầu vận hành thực tế.
- Data Pipeline: Một loạt các bước xử lý di chuyển dữ liệu từ nguồn đến đích. Ví dụ dữ liệu bán hàng phát sinh từ POS sẽ được copy sang các Data Lake hoặc/và Data Mart.
- Data Stream: Cách gọi của một luồng dữ liệu tới liên tục, thường theo thời gian thực.
- Extract, Transform, Load (ETL): A process for extracting data from one or more sources, transforming it into a consistent format, and loading it into a destination. Một quy trình trích xuất dữ liệu từ một hoặc nhiều nguồn, chuyển đổi dữ liệu thành một định dạng nhất định và tải dữ liệu vào đích.
- Extract, Load, Transform (ELT): Khác với ETL, ELT là một bộ quy trình các bước trích xuất dữ liệu, tải dữ liệu tới đích rồi mới tiến hành chuyển đổi. Thường được ứng dụng trong các visualization tools.
- Data Enrichment: Quá trình thêm thông tin bổ sung vào dữ liệu để cải thiện chất lượng và độ chính xác của dữ liệu. Ví dụ dữ liệu khách hàng với email sẽ được tiến hành “cào” từ các trang social để bổ sung giới tính, avatar (Vì vậy bạn phải cẩn trọng trong việc chia sẻ dữ liệu cá nhân nhé).
- Data Mart: Một tập hợp dữ liệu con của Data Warehouse, được thiết kế riêng nhằm phục vụ nhu cầu sử dụng của các phòng ban khác trong tổ chức. Ví du: dữ liệu thống kê bán hàng theo nhóm khách hàng thường được sử dụng bởi phòng kinh doanh, vậy Data Mart sẽ lưu trữ dataset này để phục vụ chính xác nhu cầu.
- Data Warehouse: Là kho dữ liệu tập trung của một tổ chức. Dùng cho mục đích lưu trữ số liệu, tổ chức báo cáo, reporting và alerting. Do tính chất khá đặc thù là vừa lưu trữ dữ liệu dạng bảng, vừa phục vụ báo cáo vừa dùng để alert khi có các sự kiện không phù hợp nên thường Data Warehouse sẽ được xây dựng trên các hệ RDBMS.
- Data Lake: Kho lưu trữ dữ liệu ở quy mô lớn, các dữ liệu lưu trữ ở đây có thể ở bất cứ dạng nào như dữ liệu bán hàng, video từ camera, hình ảnh, file ghi âm… Mục tiêu lưu trữ bao gồm để backup dữ liệu, lưu trữ trước sử dụng sau, hoặc để xử lý dữ liệu trực tiếp bằng các phương pháp lưu trữ và công cụ xử lý dữ liệu phù hợp
- Data Transformation: Quá trình chuyển đổi dữ liệu từ định dạng này sang định dạng khác để làm có thể sử dụng được cho phân tích hoặc báo cáo.
- Data Mining: Quá trình khám phá các mẫu và thông tin chi tiết trong các tập dữ liệu lớn thông qua việc sử dụng các phương thức thống kê.
- Predictive Analytics: Là việc sử dụng dữ liệu, các thuật toán thống kê và machine learning để xác định khả năng xảy ra kết quả trong tương lai dựa trên lịch sử. Ví dụ: Fraud detection để kiểm tra các giao dịch gian lận, dự đoán doanh thu hoặc dự đoán khả năng khách hàng bỏ đi.
- Prescriptive Analytics: Là việc sử dụng dữ liệu để đưa ra các giải pháp tối ưu hoá nhất có thể. Ví dụ tối ưu quảng cáo trong digital marketing để tăng CPA cao nhất có thể, tối ưu hoá vận chuyển/điều phối hàng hoá (Supply chain), tối ưu hoá nhân công.
- Data Reporting: Quá trình trình bày dữ liệu theo cách có ý nghĩa để hỗ trợ việc ra quyết định.
- Data Dashboard: Giao diện người dùng đồ họa cung cấp quyền truy cập vào các số liệu dưới dạng hình ảnh đồ họa(charts).
- Recommendation Engine: Một hệ thống sử dụng các thuật toán để đề xuất các mặt hàng cho người dùng dựa trên sở thích và hành vi của họ. Ví dụ: các trang thương mại điện tử hay dùng để khuyến khích người mua bỏ vào thêm giỏi hàng.
- A/B Testing: Một kỹ thuật đánh giá các thay đổi đối với trang web hoặc sản phẩm bằng cách hiển thị ngẫu nhiên các nhóm người dùng khác nhau trước các biến thể khác nhau. Ví dụ nút “Mua Ngay” hiển thị mờ và khó thấy hơn so với biến đổi thành nút màu đỏ.
- Natural Language Processing (NLP): Một trong các lĩnh vực trí tuệ nhân tạo tập trung vào việc cho phép máy tính hiểu và xử lý ngôn ngữ của con người. (Lưu ý: nó không phải NLP, mà các doanh nhân “thành đạt” hay dạy đâu nhé).
- Computer Vision: Một trong các lĩnh vực trí tuệ nhân tạo tập trung vào việc cho phép máy tính hiểu và diễn giải thông tin hình ảnh. Ví dụ Google Lens hay tìm kiếm sản phẩm bằng hình trên Alibaba.
- Spatial Data: Dữ liệu bao gồm thông tin về vị trí, chẳng hạn như dữ liệu địa lý hoặc dữ liệu bản đồ.
- Data Aggregation: Quá trình tổng hợp dữ liệu từ nhiều nguồn data vào một dataset. Ví dụ nhà máy sản xuất 10,000 sản phẩm; mỗi sản phẩm đều có thời gian sản xuất riêng. Và doanh nghiệp cần báo cáo sản lượng sản phẩn theo giờ/ngày thì sẽ cẩn tổng hợp dữ liệu.
- Data Exploration: Tương tự như công việc ban đầu của data analysis, người dùng có thể khám phá dữ liệu dựa trên các công cụ visualization có hỗ trợ tính năng này. Thông qua đó họ có thể hiểu đặc điểm của tệp dữ liệu thay vì thông qua các hệ thống quản lý dữ liệu truyền thống (RDBMS hoặc Excel). Ví dụ Apache Superset có thể cho người dùng khám phá dữ liệu trên tập dataset có sẵn.
Phiên bản 66 thuật ngữ này chỉ là một phần trong số rất nhiều thuật ngữ của lĩnh vực Data. Đọc qua các thuật ngữ này sẽ giúp bạn hiểu hơn về ngành và là cơ hội để bạn ôn tập lại một số khái niệm cũ. Mình hy vọng bạn sẽ ủng hộ, để mình có thể tiếp tục cải thiện và mở rộng danh sách các thuật ngữ, có thể lên tới 99, 128 hoặc ngay cả 256 thuật ngữ trong tương lai.