Trong bài này
01/10/2023
Công nghệ Hadoop là một công nghệ chính phục vụ việc lưu trữ, xử lý dữ liệu Big Data. Hadoop sử dụng HDFS để tạo ra không gian lưu trữ. Vậy HDFS là gì? Kiến trúc và cách hoạt động của chúng ra sao? Bằng cách nào mà HDFS có thể xử lý một lượng lớn dữ liệu trong Big Data một cách nhanh chóng và hiệu quả đến vậy? Hãy cùng tìm hiểu tất cả các khái niệm này thông qua bài viết bên dưới.
HDFS (Hadoop Distributed File System) là một hệ thống lưu trữ dữ liệu được Hadoop sử dụng. HDFS hoạt động như một hệ thống tệp phân tán được thiết kế để chạy trên các thiết bị phần cứng thông thường.
HDFS có khả năng chịu lỗi cao, nhằm giảm rủi ro cho doanh nghiệp. Chúng được thiết kế cho việc triển khai trên phần cứng hàng hóa với chi phí rẻ. Doanh nghiệp có thể truy cập dữ liệu thông lượng cao vào các dữ liệu ứng dụng hoặc truy cập trực tuyến vào các dữ liệu hệ thống tệp của Apache Hadoop.
HDFS là gì?
Ban đầu, HDFS được thiết kế dựa trên hệ thống tập tin của Google, với mục đích chính là trở thành cơ sở hạ tầng cho công cụ tìm kiếm Apache Nutch. Sau đó, HDFS đã trở thành một phần trong hệ sinh thái Hadoop. Ngày nay, cấu trúc của Hadoop được quản lý bởi nền tảng Apache, với cộng đồng các nhà phát triển và cộng tác viên trên toàn cầu.
Trong thời đại công nghệ, dữ liệu được tạo ra càng ngày càng nhiều, trong đó có các dữ liệu khó lưu trữ, phân tích và xử lý. Tất cả các dữ liệu này được gọi chung với thuật ngữ là Big Data (dữ liệu lớn). HDFS là phần mềm phổ biến nhất để xử lý dữ liệu lớn này, được nhiều công ty lớn như Netflix, British Airways, Expedia,... sử dụng. Có 5 yếu tố chính của các Big Data được HDFS tổ chức là:
Hiện nay, HDFS đang là một trong những giải pháp được nhiều lập trình viên sử dụng nhất, nhờ vào các ưu điểm nổi bật như:
Tính năng của HDFS là gì?
Tiếp theo, hãy cùng tìm hiểu về kiến trúc của HDFS để hiểu rõ hơn về hệ thống này. HDFS hoạt động theo kiến trúc Master & Slave, mỗi một HDFS Cluster đều gồm 1 NameNode. Namenode có nhiệm vụ quản lý hệ thống tập tin và điều chỉnh truy cập vào các tập tin khác.
Trong HDFS sẽ luôn có một Namenode được cấu hình riêng cho các máy chủ, mỗi Namenode sẽ tạo ra nhiều Datanodes. Các tập tin dữ liệu lớn trong HDFS được chia nhỏ thành nhiều phần khác nhau và lưu trữ trong các Datanodes.
Datanodes có nhiệm vụ đọc, ghi vào hệ thống tập tin hoặc khởi tạo, nhân bản, xóa các dữ liệu dựa theo hướng dẫn của Namenode. Cả Namenode và Datanode đều là phần mềm được viết bằng Java, và chúng được xây dựng để chạy trên máy chủ.
HDFS hoạt động theo 3 giai đoạn:
Giai đoạn 1:
Một người dùng hoặc một ứng dụng submit một job lên Hadoop với các yêu cầu cơ bản, cụ thể:
Giai đoạn 2:
Hadoop submit job và lên lịch làm việc, đưa job vào danh sách hàng đợi. Sau khi nhận yêu cầu của JobTracker, các Server Master (Server cha) sẽ chia công việc cho các Server Slave (Server con). Lúc này, Server Slave sẽ thực hiện những job được giao và trả về kết quả cho Server Master.
Giai đoạn 3
TaskTrackers thực hiện nhiệm vụ kiểm tra, đảm bảo tất cả các MapReduce hoạt động bình thường và kết quả trả về là đúng.
Cách hoạt động của HDFS là gì
Hệ thống tệp phân tán Hadoop (Hadoop Distributed File System) được dùng trong Yahoo, với vai trò hỗ trợ vị trí đặt quảng cáo online và công cụ tìm kiếm. Giống như những công ty hoạt động trên nền tảng Web khác, Yahoo cung cấp nhiều ứng dụng đa dạng cho người dùng, và càng ngày họ càng tạo ra nhiều dữ liệu.
Một số công ty khác như eBay, Facebook, LinkedIn và Twitter cũng đã sử dụng HDFS để xử lý, phân tích dữ liệu lớn nhằm giải quyết các yêu cầu tương tự như của Yahoo.
Ngoài việc đáp ứng các yêu cầu về đặt vị trí quảng cáo và công cụ tìm kiếm, HDFS còn phục vụ nhiều nhu cầu khác. New York Times đã sử dụng nó để hỗ trợ quá trình chuyển đổi hình ảnh quy mô lớn, Media6Degrees sử dụng để xử lý nhật ký và học máy, LiveBet sử dụng để lưu trữ nhật ký và phân tích tỷ lệ cá cược, Joost dùng cho phân tích phiên và Fox Audience Network sử dụng để phân tích nhật ký và khai thác dữ liệu. HDFS cũng là yếu tố cốt lõi của nhiều hồ dữ liệu nguồn mở.
Các trường hợp sử dụng HDFS
Nhìn rộng hơn, các doanh nghiệp trong nhiều lĩnh vực khác nhau sử dụng HDFS để quản lý các nhóm dữ liệu lớn, bao gồm:
Trên đây là toàn bộ các kiến thức chi tiết về HDFS là gì, cấu trúc và cách hoạt động của nó. Hy vọng bài viết trên đã giúp doanh nghiệp có cái nhìn tổng quan hơn về vai trò của HDFS cũng như công nghệ Hadoop trong Big Data. Hãy truy cập vào blog của CMC Cloud để theo dõi những bài viết công nghệ mới và hữu ích nhất.
CMC Cloud - Giải pháp Điện toán đám mây Toàn diện & Linh hoạt nhất. Cho phép tùy biến sử dụng và quản trị 25+ dịch vụ
CMC Telecom chào đón đoàn doanh nghiệp Đài Loan: Kết nối công nghệ, mở rộng hợp tác quốc tế
So sánh NVMe PassThrough, Virtualized SSD và Local SSD: Lựa chọn nào cho hệ thống doanh nghiệp của bạn?
NVMe PassThrough là gì? Khi nào doanh nghiệp nên dùng NVMe PassThrough?
CMC Telecom đồng hành cùng SMEs kiến tạo chuyển đổi số bền vững thời AI
Chuyển đổi IPv6 không gián đoạn: Vì sao doanh nghiệp cần Dual-Stack?
Bài viết liên quan
Cùng chuyên mục
So sánh NVMe PassThrough, Virtualized SSD và Local SSD: Lựa chọn nào cho hệ thống doanh nghiệp của bạn?
27/07/2025
Trong quá trình thiết kế hạ tầng cho các hệ thống xử lý dữ liệu cường độ cao, việc lựa chọn giải pháp lưu trữ phù hợp là yếu tố then chốt quyết định hiệu năng tổng thể. Không ít doanh nghiệp đang băn khoăn giữa các lựa chọn như virtualized SSD, local SSD, hay công nghệ mới nổi hơn – NVMe PassThrough. Vậy sự khác biệt nằm ở đâu? Khi nào nên chọn giải pháp nào? Bài viết này sẽ giúp bạn nhìn rõ bức tranh hiệu năng và tính ứng dụng của từng công nghệ.
NVMe PassThrough là gì? Khi nào doanh nghiệp nên dùng NVMe PassThrough?
20/07/2025
với các ứng dụng có tần suất đọc/ghi cao như cơ sở dữ liệu, AI/ML, phân tích thời gian thực – chỉ số IOPS (Input/Output Operations Per Second) càng lớn thì hiệu năng càng vượt trội. Và đó chính là lúc cái tên NVMe PassThrough được nhắc đến như một giải pháp chiến lược.
Bạn muốn cập nhật thông tin mới nhất từ CMC Cloud?! Hãy để lại địa chỉ email của bạn ngay để nhận những bản tin bổ ích
Điều khoản & Chính sách