Định nghĩa Dim & Fact

Dim và Fact là 2 khái niệm rất quan trọng trong Datawarehourse. Trong lúc học môn DW & BI mình hơi lơ mơ bây h mình sẽ tổng hợp lại cho nhớ

Cấu trúc của DW

  • Lượng dữ liệu trong DW là rất lớn và không có những thao tác như sửa đổi hay tạo mới nên nó cần được tối ưu cho việc phân tích và báo cáo
  • Các thao tác với dữ liệu của khó dựa trên cơ sở mô hình dữ liệu đa chiều, được mô hình hóa vào đối tượng gọi là data cube.
  • Data cube là trung tâm phân tích, nó bao gồm nhiều dữ kiện(fact) và nhiều chiều (dim)

Bảng dim

Định nghĩa: bảng dim chứa các thuộc tính (attribute) mô tả các thông tin 1 chiều của dữ liệu (Ví dụ: product, brach, group, user, …)

⟶ Dim lưu thông tin cơ bản ít thay đổi.

Bảng dim cung cấp thông tin, ngữ cảnh cho bảng fact. Dim thường có quy mô nhỏ hơn fact nhiều lần, nhưng dim là trọng tâm của DW, vì thiếu nó các số liệu trong fact sẻ không lại nhiều ý nghĩa cho người dùng.

Bảng fact

Định nghĩa: bảng fact là bảng chứa các thông tin số lượng (measurements) của dữ liệu. Thông thường, bảng Fact được xây dựng (cook) ừ các raw data, và được thống kê theo thời gian (tuần, ngày, tháng, năm)

⟶ Bảng fact là bảng trung tâm rong cả 02 mô hình dữ liệu kinh điển: Star Schema và Snowflake Schema. Fact sẽ phụ thuộc vào nhu cầu báo cáo.

So sánh các khái niệm xây dựng dw bằng các mô hình star, snowflake

Giản đồ hình sao

Do thông thường thì bảng face thường nằm ở trung tâm hình sao và các dim nằm xung quanh. Với mô hình này người thiết kế cần phân loại các bảng thành bảng dim, fact

dim table: mô tả các thực thể kinh doanh, những dữ liệu bạn cần lập mô hình.

fact table: lưu trữ dữ liệu quan sát hoặc sự kiện, có thể là đơn hàng, số dư kho…

⟶ Giản đồ hình sao là kiến trúc mô hình dw tại đó, một bảng fact được giải thích chi tiết bởi các bảng dim

Chuẩn hóa

dữ liệu được lưu trữ theo cách làm giảm dữ liệu lặp lại

Không chuẩn hóa

dữ liệu ban đầu và chưa được xử lý giảm trùng lặp

Giản đồ hình bông tuyết

Là phần mở rộng của star schema

⟶ Một lược đồ được gọi là star schema nếu một or nhiều bảng dim không kết nối trực tiếp với dữ liệu bảng fact

⟶ Snowflake sử dụng cho các hoạt động kinh doanh thông minh và báo cáo trong kho dữ liệu OLAP

Ưu điểm

  • phát triển về hiệu suất truy vấn do các yêu cầu lưu trữ được giảm thiểu và tham gia các bảng tra cứu nhỏ hơn.
  • truy xuất dữ liệu nhanh
  • phổ biến

Nhược điểm

  • bảo trì nhiều do nỗ lực quản lý bảng càng tăng
  • mất chi phí lớn ban đầu
  • cứng
  • nhiều bảng nên mất nhiều thời gian thực hiện.

Cube, roll up, drill-up, OLTP, OLaP(đa chiều)

Cube

Cube là một kỹ thuật mạnh hơn rollup, cho phép tạo ra tất cả các tổ hợp có thể của các cấp độ tổng hợp cho nhiều chiều dữ liệu cùng một lúc. Cube giúp phân tích dữ liệu theo nhiều chiều và mức độ chi tiết khác nhau trong cùng một truy vấn.

roll up

rollup là một kỹ thuật trong sql được sử dụng để tổng hợp dữ liệu theo nhiều cấp độ khác nhau của một chiều dữ liệu.

drill-up

Drill up là một kỹ thuật trong phân tích dữ liệu và báo cáo, được sử dụng để di chuyển từ mức chi tiết hơn lên mức tổng quát hơn của dữ liệu. Đây là quá trình ngược lại của kỹ thuật “drill down,” nơi bạn di chuyển từ mức tổng quát xuống mức chi tiết hơn.

OLTP & OLAP

Bảng dưới đây đã nêu rất rõ về độ khác nhau giữa 2 loại:

State less, State full, ACL

Lọc gói tin:

  • là cơ chế của tường lửa thế hệ 1
  • Định tuyến gói tin có chọn lọc (giữa bên trong và bên ngoài)
  • Lọc gói tin có thể thực thi tại router, firewall

Cơ chế lọc gói tin

  • Bộ lọc gói tin cho phép từ chối gói tin mà nó nhận được. Nó kiểm tra toàn bộ đoạn dữ liệu để quyết định xem dữ liệu đó có thỏa mãn các role hay không
  • Các rules này dựa trên các thông tin ở packet header bao gồm:
  • Địa chỉ IP nguồn
  • IP đích
  • Protocol
  • TCP/UDP source port
  • TCP/UDP destination port
  • Dạng thông báo ICMP
  • Cổng gói tin đến
  • Cổng gói tin đi

Có trạng thái

  • Lưu vết kết nối TCP
  • Cho phép port khác nhau mở để trao đổi dữ liệu
  • Cho phép outbound port mở truy cập tới port khác
  • Giới hạn tốc độ mở SYN packets
  • Lọc theo các giao thức tầng ứng dụng

Không trạng thái

  • Bộ lọc không duy trì trạng thái
  • Mỗi gói tin bị lọc không ảnh hưởng đến gọi tin khác
  • Thường duyệt trên tập các rule

ACL

Chuyển từ bảng thành danh sách theo cột:

  • Với mỗi khách thể object: có tập các bộ <user, right>