Định nghĩa Dim & Fact
Dim và Fact là 2 khái niệm rất quan trọng trong Datawarehourse. Trong lúc học môn DW & BI mình hơi lơ mơ bây h mình sẽ tổng hợp lại cho nhớ
Cấu trúc của DW
- Lượng dữ liệu trong DW là rất lớn và không có những thao tác như sửa đổi hay tạo mới nên nó cần được tối ưu cho việc phân tích và báo cáo
- Các thao tác với dữ liệu của khó dựa trên cơ sở mô hình dữ liệu đa chiều, được mô hình hóa vào đối tượng gọi là data cube.
- Data cube là trung tâm phân tích, nó bao gồm nhiều dữ kiện(fact) và nhiều chiều (dim)
Bảng dim
Định nghĩa: bảng dim chứa các thuộc tính (attribute) mô tả các thông tin 1 chiều của dữ liệu (Ví dụ: product, brach, group, user, …)
⟶ Dim lưu thông tin cơ bản ít thay đổi.
Bảng dim cung cấp thông tin, ngữ cảnh cho bảng fact. Dim thường có quy mô nhỏ hơn fact nhiều lần, nhưng dim là trọng tâm của DW, vì thiếu nó các số liệu trong fact sẻ không lại nhiều ý nghĩa cho người dùng.
Bảng fact
Định nghĩa: bảng fact là bảng chứa các thông tin số lượng (measurements) của dữ liệu. Thông thường, bảng Fact được xây dựng (cook) ừ các raw data, và được thống kê theo thời gian (tuần, ngày, tháng, năm)
⟶ Bảng fact là bảng trung tâm rong cả 02 mô hình dữ liệu kinh điển: Star Schema và Snowflake Schema. Fact sẽ phụ thuộc vào nhu cầu báo cáo.
So sánh các khái niệm xây dựng dw bằng các mô hình star, snowflake
Giản đồ hình sao
Do thông thường thì bảng face thường nằm ở trung tâm hình sao và các dim nằm xung quanh. Với mô hình này người thiết kế cần phân loại các bảng thành bảng dim, fact
dim table: mô tả các thực thể kinh doanh, những dữ liệu bạn cần lập mô hình.
fact table: lưu trữ dữ liệu quan sát hoặc sự kiện, có thể là đơn hàng, số dư kho…
⟶ Giản đồ hình sao là kiến trúc mô hình dw tại đó, một bảng fact được giải thích chi tiết bởi các bảng dim
Chuẩn hóa
dữ liệu được lưu trữ theo cách làm giảm dữ liệu lặp lại
Không chuẩn hóa
dữ liệu ban đầu và chưa được xử lý giảm trùng lặp
Giản đồ hình bông tuyết
Là phần mở rộng của star schema
⟶ Một lược đồ được gọi là star schema nếu một or nhiều bảng dim không kết nối trực tiếp với dữ liệu bảng fact
⟶ Snowflake sử dụng cho các hoạt động kinh doanh thông minh và báo cáo trong kho dữ liệu OLAP
Ưu điểm
- phát triển về hiệu suất truy vấn do các yêu cầu lưu trữ được giảm thiểu và tham gia các bảng tra cứu nhỏ hơn.
- truy xuất dữ liệu nhanh
- phổ biến
Nhược điểm
- bảo trì nhiều do nỗ lực quản lý bảng càng tăng
- mất chi phí lớn ban đầu
- cứng
- nhiều bảng nên mất nhiều thời gian thực hiện.
Cube, roll up, drill-up, OLTP, OLaP(đa chiều)
Cube
Cube là một kỹ thuật mạnh hơn rollup, cho phép tạo ra tất cả các tổ hợp có thể của các cấp độ tổng hợp cho nhiều chiều dữ liệu cùng một lúc. Cube giúp phân tích dữ liệu theo nhiều chiều và mức độ chi tiết khác nhau trong cùng một truy vấn.
roll up
rollup là một kỹ thuật trong sql được sử dụng để tổng hợp dữ liệu theo nhiều cấp độ khác nhau của một chiều dữ liệu.
drill-up
Drill up là một kỹ thuật trong phân tích dữ liệu và báo cáo, được sử dụng để di chuyển từ mức chi tiết hơn lên mức tổng quát hơn của dữ liệu. Đây là quá trình ngược lại của kỹ thuật “drill down,” nơi bạn di chuyển từ mức tổng quát xuống mức chi tiết hơn.
OLTP & OLAP
Bảng dưới đây đã nêu rất rõ về độ khác nhau giữa 2 loại:
State less, State full, ACL
Lọc gói tin:
- là cơ chế của tường lửa thế hệ 1
- Định tuyến gói tin có chọn lọc (giữa bên trong và bên ngoài)
- Lọc gói tin có thể thực thi tại router, firewall
Cơ chế lọc gói tin
- Bộ lọc gói tin cho phép từ chối gói tin mà nó nhận được. Nó kiểm tra toàn bộ đoạn dữ liệu để quyết định xem dữ liệu đó có thỏa mãn các role hay không
- Các rules này dựa trên các thông tin ở packet header bao gồm:
- Địa chỉ IP nguồn
- IP đích
- Protocol
- TCP/UDP source port
- TCP/UDP destination port
- Dạng thông báo ICMP
- Cổng gói tin đến
- Cổng gói tin đi
Có trạng thái
- Lưu vết kết nối TCP
- Cho phép port khác nhau mở để trao đổi dữ liệu
- Cho phép outbound port mở truy cập tới port khác
- Giới hạn tốc độ mở SYN packets
- Lọc theo các giao thức tầng ứng dụng
Không trạng thái
- Bộ lọc không duy trì trạng thái
- Mỗi gói tin bị lọc không ảnh hưởng đến gọi tin khác
- Thường duyệt trên tập các rule
ACL
Chuyển từ bảng thành danh sách theo cột:
- Với mỗi khách thể object: có tập các bộ <user, right>