Trong bài này
01/10/2023
Công nghệ Hadoop là một công nghệ chính phục vụ việc lưu trữ, xử lý dữ liệu Big Data. Hadoop sử dụng HDFS để tạo ra không gian lưu trữ. Vậy HDFS là gì? Kiến trúc và cách hoạt động của chúng ra sao? Bằng cách nào mà HDFS có thể xử lý một lượng lớn dữ liệu trong Big Data một cách nhanh chóng và hiệu quả đến vậy? Hãy cùng tìm hiểu tất cả các khái niệm này thông qua bài viết bên dưới.
HDFS (Hadoop Distributed File System) là một hệ thống lưu trữ dữ liệu được Hadoop sử dụng. HDFS hoạt động như một hệ thống tệp phân tán được thiết kế để chạy trên các thiết bị phần cứng thông thường.
HDFS có khả năng chịu lỗi cao, nhằm giảm rủi ro cho doanh nghiệp. Chúng được thiết kế cho việc triển khai trên phần cứng hàng hóa với chi phí rẻ. Doanh nghiệp có thể truy cập dữ liệu thông lượng cao vào các dữ liệu ứng dụng hoặc truy cập trực tuyến vào các dữ liệu hệ thống tệp của Apache Hadoop.
HDFS là gì?
Ban đầu, HDFS được thiết kế dựa trên hệ thống tập tin của Google, với mục đích chính là trở thành cơ sở hạ tầng cho công cụ tìm kiếm Apache Nutch. Sau đó, HDFS đã trở thành một phần trong hệ sinh thái Hadoop. Ngày nay, cấu trúc của Hadoop được quản lý bởi nền tảng Apache, với cộng đồng các nhà phát triển và cộng tác viên trên toàn cầu.
Trong thời đại công nghệ, dữ liệu được tạo ra càng ngày càng nhiều, trong đó có các dữ liệu khó lưu trữ, phân tích và xử lý. Tất cả các dữ liệu này được gọi chung với thuật ngữ là Big Data (dữ liệu lớn). HDFS là phần mềm phổ biến nhất để xử lý dữ liệu lớn này, được nhiều công ty lớn như Netflix, British Airways, Expedia,... sử dụng. Có 5 yếu tố chính của các Big Data được HDFS tổ chức là:
Hiện nay, HDFS đang là một trong những giải pháp được nhiều lập trình viên sử dụng nhất, nhờ vào các ưu điểm nổi bật như:
Tính năng của HDFS là gì?
Tiếp theo, hãy cùng tìm hiểu về kiến trúc của HDFS để hiểu rõ hơn về hệ thống này. HDFS hoạt động theo kiến trúc Master & Slave, mỗi một HDFS Cluster đều gồm 1 NameNode. Namenode có nhiệm vụ quản lý hệ thống tập tin và điều chỉnh truy cập vào các tập tin khác.
Trong HDFS sẽ luôn có một Namenode được cấu hình riêng cho các máy chủ, mỗi Namenode sẽ tạo ra nhiều Datanodes. Các tập tin dữ liệu lớn trong HDFS được chia nhỏ thành nhiều phần khác nhau và lưu trữ trong các Datanodes.
Datanodes có nhiệm vụ đọc, ghi vào hệ thống tập tin hoặc khởi tạo, nhân bản, xóa các dữ liệu dựa theo hướng dẫn của Namenode. Cả Namenode và Datanode đều là phần mềm được viết bằng Java, và chúng được xây dựng để chạy trên máy chủ.
HDFS hoạt động theo 3 giai đoạn:
Giai đoạn 1:
Một người dùng hoặc một ứng dụng submit một job lên Hadoop với các yêu cầu cơ bản, cụ thể:
Giai đoạn 2:
Hadoop submit job và lên lịch làm việc, đưa job vào danh sách hàng đợi. Sau khi nhận yêu cầu của JobTracker, các Server Master (Server cha) sẽ chia công việc cho các Server Slave (Server con). Lúc này, Server Slave sẽ thực hiện những job được giao và trả về kết quả cho Server Master.
Giai đoạn 3
TaskTrackers thực hiện nhiệm vụ kiểm tra, đảm bảo tất cả các MapReduce hoạt động bình thường và kết quả trả về là đúng.
Cách hoạt động của HDFS là gì
Hệ thống tệp phân tán Hadoop (Hadoop Distributed File System) được dùng trong Yahoo, với vai trò hỗ trợ vị trí đặt quảng cáo online và công cụ tìm kiếm. Giống như những công ty hoạt động trên nền tảng Web khác, Yahoo cung cấp nhiều ứng dụng đa dạng cho người dùng, và càng ngày họ càng tạo ra nhiều dữ liệu.
Một số công ty khác như eBay, Facebook, LinkedIn và Twitter cũng đã sử dụng HDFS để xử lý, phân tích dữ liệu lớn nhằm giải quyết các yêu cầu tương tự như của Yahoo.
Ngoài việc đáp ứng các yêu cầu về đặt vị trí quảng cáo và công cụ tìm kiếm, HDFS còn phục vụ nhiều nhu cầu khác. New York Times đã sử dụng nó để hỗ trợ quá trình chuyển đổi hình ảnh quy mô lớn, Media6Degrees sử dụng để xử lý nhật ký và học máy, LiveBet sử dụng để lưu trữ nhật ký và phân tích tỷ lệ cá cược, Joost dùng cho phân tích phiên và Fox Audience Network sử dụng để phân tích nhật ký và khai thác dữ liệu. HDFS cũng là yếu tố cốt lõi của nhiều hồ dữ liệu nguồn mở.
Các trường hợp sử dụng HDFS
Nhìn rộng hơn, các doanh nghiệp trong nhiều lĩnh vực khác nhau sử dụng HDFS để quản lý các nhóm dữ liệu lớn, bao gồm:
Trên đây là toàn bộ các kiến thức chi tiết về HDFS là gì, cấu trúc và cách hoạt động của nó. Hy vọng bài viết trên đã giúp doanh nghiệp có cái nhìn tổng quan hơn về vai trò của HDFS cũng như công nghệ Hadoop trong Big Data. Hãy truy cập vào blog của CMC Cloud để theo dõi những bài viết công nghệ mới và hữu ích nhất.
CMC Cloud - Giải pháp Điện toán đám mây Toàn diện & Linh hoạt nhất. Cho phép tùy biến sử dụng và quản trị 25+ dịch vụ
Bài viết liên quan
Cùng chuyên mục
Tối ưu hóa quản trị và bảo mật hệ thống với CMC Cloud IAM và Cloud Trace Service
22/08/2024
CMC Cloud đã phát triển hai dịch vụ mạnh mẽ - IAM và Cloud Trace Service - nhằm hỗ trợ các doanh nghiệp không chỉ quản lý người dùng một cách linh hoạt mà còn theo dõi toàn diện hoạt động hệ thống.
Nguy cơ an ninh mạng mới và giải pháp bảo mật đám mây toàn diện từ CMC Cloud
21/08/2024
Bên cạnh việc mang lại nhiều lợi ích về hiệu suất và chi phí, điện toán đám mây cũng mở ra các lỗ hổng bảo mật mới nếu không có biện pháp bảo vệ kịp thời.
Bạn muốn cập nhật thông tin mới nhất từ CMC Cloud?! Hãy để lại địa chỉ email của bạn ngay để nhận những bản tin bổ ích
Điều khoản & Chính sách