Tìm hiểu công cụ ko thể thiếu cho DE - Airflow
Giới thiệuAirflow là một công cụ hữu ích cho DataEngineer dùng để lập lịch việc này đến việc kia, ….
Airflow cung cấp các khái niệm như “DAG” (Directed Acyclic Graph), “Task”, “Operator”, “Sensor” để mô tả quy trình xử lý dữ liệu
DAG
Hiểu đại khái là một đồ thị có hướng không có chu trình (do điểm đầu cuối ko trùng)
Mỗi DAG được định nghĩa trong 1 file trong folder dags
Các nút trong đồ thị là các tác vụ xử lý dữ liệu
Vòng đời của 1 tác vụ bao gồm:
No status: chưa được xếp hàng để thực hiện
S ...
Bóc trần bí mật kiểm tiền khủng từ quảng cáo trên App và Web
Mở đầuTừ bé đến lớn, từ lúc xem ti vi loa đài đến lúc vi vu lướt tiktok thì chả ai lại ko gặp quảng cáo. Biết là ghét cay ghet
aqaeQuảng cáo trong Appinter splashbanernativeQuảng cáo trên WebsiteHiểu về bẫy CookieKết luận
Lấy dữ liệu từ facebook ads
b23f0e25e92282d6f1daf88e6604d7625a6375b21d06123103d396a1806401f0515ad5e92f298364c922e4df81239ac0b900622fe9d48c5e42869f36fdbeab8cff09dfec0cb9067d74dfc9c34ec2cf5f3f74938877b931d1dde0e0280b470008947e284502a1c0559636227d6dcfeababc571feb35458eac118da29cfe25f58a44b576d23efd46c3c205a4e4941160f5d90bfb976814c532c48d6624a8d42b10387e03819d568d8a75d695edfa69c1b88dd39ec709273996e89065c51d0c4062e080b732aacf6d39174504e312aec0fca99b44e06ec3210dcff1bbe7c3a5637b82b495872ed9353fc97f70fd63359a7259c3a6242902edcbf ...
Hướng dẫn crawl dữ liệu từ Pancake Việt Nam
Ingest Pancake: nguồn lấy về bằng apiTrong các loại dữ liệu phổ biển của doanh nghiệp việt nam thì pancake là ông tổ của các loại dữ liệu về cs chăm sóc khách hàng. Chúng ta không thể dương mắt nhìn đống data này chỉ có thể view trên web pancake.vn được. Chúng ta phải mang nó về xào qua các lượt và kết hợp nó với dữ liệu từ các nguồn khác của công ty để cho ra được những dashboard, những insight đẹp nhất.
Vì thế blog này ra đời ko chỉ vì lưu trữ kiến thức mà còn là vì nó vô cùng cần thiết, công ...
Linux và một số cái hay ho
I say hiXin chào, lâu rồi mới ló mặt ra chả là vì bận rộn công việc, rời bời chuyện đời tư hay vất vả trong chuyện học hành là những cái trì hoãn tôi trong việc tiếp tục sản xuất những nội dung mới lạ như này. Mất công học 5 6 khóa linux thì đọng lại trong đầu tôi ko phải chỉ có các câu lệnh nó bao gồm cả lịch sử, sự hình thành, các đời của linux - một OS tôi cực kỳ yêu thích.
Kiểu gì mấy cái này mai sau tôi chả quên, nên blog này sẽ là nơi note cái kiến thức về linux - em bé cánh cụt cute.
Sau ...
AWS - Những điều nhỏ nhặt bạn cần biết
Hello
Xin chào, đã lâu ko quay trở lại, hôm nay tình cờ bạn DA đi vằng và tôi ko có việc gì làm nên tôi có take note ra cái blog này những kiến thức vô cùng hữu ích khi bạn dùng AWS. Và đặc biệt bạn có thể mang những kiến thức này đi chém gió. Chắc gì đã có người biết những thứ nhỏ nhặt hay ho này.
Kiến thức
Cloud Watch
Cloud watch ko chỉ dùng để check log nó còn có thể xây dựng một hệ thống để monitor các server, hệ thống của bạn và xây dựng dashboard từ các log đó, đùng coi thường services này ...
Giải cứu máy tính trong ngày đen tối, tôi sẽ recovery những gì đầu tiên 🤔
First of all
Ờm!
Xin chào, đã 4 năm kể từ lần cuối máy tính tôi được làm mới hoàn toàn bằng liệu pháp chuyển sinh sang một thế giới khác (ý tôi là cài lại win 🙂). Hiện tại con máy tính này đang sống khá vất vả với hàng đống dữ liệu, các apps, virut chạy ngầm triền miên. Thi thoảng lớ ngớ là con máy tính nó bật quạt sấy như lốc như bão.
Tuy nhiên máy tính tôi vẫn được coi là xịn xò, cân được tất cả mọi kèo, từ con game hàng khủng đến các thể loại LOL, truy kích, GA đến việc chạy các thuật toán ...
6 cấp độ tư duy của nhận thức
Tại sao có bài viết này
Xin chào !
Là một người đã có gần 16 năm đi học việc tìm hiểu xem kiến thức vũ trụ mình nắm được bao nhiêu rồi là một điều cần thiết. Và việc mình nắm được kiến thức đó như nào, sử dụng nó ra làm sao là một bài toán khó cũng cần được giải quyết. Hình dung nó như một đống dữ liệu raw phức tạp bạn có insight, bạn cần sử lý đống data này sao cho nó hữu ích nhất có thể. Khai thác triệt để bằng cách áp dụng đủ các thuật toán, các model này model nọ.
Đi học nhiều, đọc nhiều sá ...
Tự động hóa đỉnh cao EC2 với tính năng user data
Lời đầu
Xin chào mình là Glutis - 1 sinh viên ngành toán tại HUST. Trong đợt nghỉ quốc khánh này mình có mày mò học một số khóa faster của aws trên aws education, học của vài khóa introduce thì học đến EC2 dù là base thôi nhưng mà ko thể coi nhẹ vì mình vừa phát hiện ra một tính năng độc lạ, thú vị. Nó giải quyết được vấn đề mà mình gặp phải trong vài tháng nay.
Đó là làm thế nào để một EC2 instance có thể tự khởi động server trước một khi start instance. Giải thích một chút do các instance sẽ m ...
Góc nhìn thực tế về giải thuật interview lời giải của tôi
Lời đầu
Trước sau gì tôi cũng phải trực tiếp tham gia các buổi phỏng vấn trực tiếp và khó thể tránh khỏi việc phải ngồi làm các bài test trực tiếp về giải thuật. Rồi chuyện gì đến cũng đến, ngoài việc luyện thuật toán trên leetcode tôi sẽ làm thêm các giải thuật ở trên một số group nổi tiếng như VOZ, redis, các hội nhóm facebook.
Các bài toán ở đây do tôi sưu tầm + hoàn cảnh + vị trí ứng tuyển, một phần giúp tôi lưu trữ các ý tưởng, một phần để rèn luyện, một phần cũng để mọi người đánh giá và c ...
Lý thuyết kẻ ngốc hơn
Thực tế
Dạo gần đây có lẽ mọi người đã nghe nhiều về giá bất động sản, khi nó như kiểu lạm phát ở Columbo những năm thế kỉ 19, cái giá của các bất động sản này tăng một cách khủng khiếp, phi mã. Giá ban đầu là 8tr/m2 sau khi đấu giá thì nó tăng lên 133tr/m2 trong khi đây chỉ là nhưng lô đất ở Hoài Đức - 1 huyện ngoại thành tại Hà Nội.
Sau khi nghe xong tin này tôi lại trầm ngâm nghĩ về tương lai, khi mà mình chỉ là một câu sinh viên chập chững chưa bòn xã hội được ra tiền chả là việc nghĩ đến đư ...
Những dòng ghi chú ngày cũ
First of all
Để giải phóng cho cái màn hình desktop của tôi khỏi những ghi chú mà tôi đã note lại từ lâu và có thể nếu không quăng lên đây thì nó sẽ mãi mãi không được tôi động đến. Tôi sẽ đưa nó lên đây một phần cũng vì công sưu tầm nên cũng không lỡ xóa.
Các link dưới đây có thể hữu ích cho bạn!
Learning
https://www.mediafire.com/folder/bq44n6hnb9awo/clmm: fullstack php
Khóa deep learning daotao.ai
Buổi 1.1.1 Khái niệm cơ bản: https://www.youtube.com/watch?v=0WjfC0Y7lp8&t=10s
Buổi 6 ...
Kestra Quickstart
What is Kestra?
Kestra is an open-source platform for managing data workflows and orchestrating complex data processing pipelines. It is designed to help data teams automate and manage complex workflows efficiently, including handling tasks like scheduling, monitoring, and troubleshooting end-to-end data processes.
Key Features of Kestra:
Workflow Management: Kestra allows you to define, schedule, and manage complex workflows, including executing tasks sequentially or in parallel.
Integration- ...
Tìm hiểu Airbyte
Airbyte là gì ?
Airbyte là một nền tảng ETL mã nguồn mở dùng để tích hợp dữ liệu từ nhiều nguồn khác nhau, chuyển đổi định dạng phù hợp và tải dữ liệu đó vào các điểm đến mong muốn như database, data warehouse, cloud,…
Airbyte được code bằng: Java, python, typescript, react
Nó cũng cung cấp API để đơn giản hóa việc tích hợp với nhiều ứng dụng hướng tới khách hàng.
Airbyte cung cấp REST API cho phép bạn tích hợp với các ứng dụng và dịch vụ khác của bạn, giúp bạn quản lý các job và dữ liệu của mìn ...