Apache Ambari là gì?
Apache Ambari là một phần mềm mã nguồn mở, một nền tảng quản lý cung cấp giao diện người dùng và API. Dựa trên web để giám sát, quản lý và cung cấp cụm Apache Hadoop. Nhờ phần mềm mà sự phức tạp của hệ sinh thái Hadoop được đơn giản hoá. Bên cạnh đó phần mềm cũng cung cấp chế độ xem gắn kết giữa các quản trị viên và nhà khoa học dữ liệu.
Phần mềm Apache Ambari được phát triển bởi Hortonworks và tặng cho Apache Software Foundation. Phần mềm được thiết kế để đáp ứng nhu cầu về một công cụ quản lý có khả năng mở rộng, dễ dùng cho cụm Hadoop. Do vậy phần mềm đã trở thành dự án cao cấp, phổ biến những năm 2013. Tới nay Apache Ambari đã trải qua vô số bản cập nhật, tới nay đã trở thành phần mềm được ưa chuộng sử dụng vì khả năng giải quyết các hạn chế hiệu quả.
>>> Xem thêm: Ưu điểm nổi trội của Hadoop
Cấu trúc của Apache Ambari
Apache Ambari bao gồm các thành phần sau:
Máy chủ Ambari
Máy chủ Ambari là điểm khởi đầu cho tất cả các tác vụ quản trị trên Apache Ambari. Nó thực chất là một script shell sử dụng mã Python (ambari-server.py).
Agent Ambari
Agent chạy trên tất cả các nút mà bạn muốn quản lý. Nó gửi tín hiệu định kỳ (được gọi là Heartbeat) đến nút chính. Các tác vụ từ máy chủ sẽ được chuyển qua agent.
Giao diện Web Ambari
Một trong những tính năng nổi bật của Apache Ambari là giao diện web thân thiện. Khi được triển khai, giao diện này sẽ hoạt động trên cổng 8080 và được bảo vệ bởi hệ thống xác thực. Sau khi đăng nhập, bạn có thể dễ dàng giám sát và kiểm soát các cluster Hadoop của mình.
Cơ sở dữ liệu
Ambari hỗ trợ nhiều hệ quản trị cơ sở dữ liệu quan hệ để theo dõi tiến độ và tình trạng cơ sở hạ tầng Hadoop. Khi thiết lập Ambari lần đầu, bạn sẽ được yêu cầu chọn cơ sở dữ liệu để sử dụng. Các cơ sở dữ liệu được hỗ trợ bao gồm:
- PostgreSQL
- PostgreSQL nhúng
- Oracle
- MySQL
- MariaDB
- SQL Server
- SQL Anywhere
- BerkeleyDB
Các chức năng quan trọng của Apache Ambari là gì?
Apache Ambari có rất nhiều tính năng, tuy nhiên LANIT sẽ chỉ liệt kê các chức năng chính trong bảng sau:
Chức năng | Mô tả |
Quản lý và giám sát Hadoop | Quản lý và giám sát các cụm Hadoop từ một giao diện trung tâm |
Quản lý cấu hình và dịch vụ | Cấu hình và quản lý các dịch vụ như HDFS, YARN, Hive, HBase |
Tự động cài đặt và cấu hình | Cài đặt và cấu hình tự động cho các dịch vụ Hadoop |
Giám sát và thông báo | Theo dõi tình trạng dịch vụ và thông báo khi có sự cố |
Quản lý người dùng | Quản lý người dùng và quyền truy cập, bảo mật hệ thống |
Khôi phục lỗi | Hỗ trợ phục hồi sau lỗi, duy trì hoạt động liên tục |
Lợi ích mà Apache Ambari mang lại
Đối với những người sử dụng công nghệ Hadoop thì chắc chắn phải công nhận những lợi ích ưu việt Apache Ambari mang lại. Cụ thể như:
- Khả năng tương thích đa nền tảng: Ambari có thể chạy trên nhiều hệ điều hành như Windows, Mac, Ubuntu, Red Hat, SUSE,… Điều này nhờ vào kiến trúc độc lập phần cứng và phần mềm, giúp đảm bảo khả năng tương thích cao.
- Tùy chỉnh linh hoạt: Tất cả các ứng dụng của Apache Ambari có thể được tùy chỉnh. Các công cụ và công nghệ có thể được gói gọn thành các plugin. Từ đó giúp tối ưu hóa tính năng theo nhu cầu của người dùng.
- Cập nhật dễ dàng: Các phiên bản của Ambari có thể tự quản lý mà không cần sử dụng công cụ phiên bản bên ngoài như Git. Do đó việc cập nhật trở nên đơn giản và không còn gặp rắc rối.
- Mở rộng tính năng dễ dàng: Bạn có thể mở rộng tính năng của các ứng dụng Ambari hiện có bằng cách thêm các thành phần giao diện (view components) mới.
- Khôi phục công việc sau sự cố: Trong trường hợp gặp sự cố, Ambari có thể khôi phục công việc từ nơi bạn đã dừng lại. Tương tự như cách Microsoft Office khôi phục tài liệu sau khi gặp lỗi.
- Bảo mật cao: Ambari hỗ trợ tính năng bảo mật mạnh mẽ và có thể đồng bộ với các thư mục LDAP hoặc Active Directory.
Những thách thức và hạn chế của Apache Ambari
Đến đây chắc hẳn bạn đã biết chức năng và lợi ích của Apache Ambari là gì rồi. Tuy nhiên thời đại ngày nay có vô vàn phần mềm, ứng dụng hiện đại nên Apache Ambari cũng gặp phải những thách thức và hạn chế như:
Thách thức | Hạn chế |
Khó mở rộng khi quản lý các cụm Hadoop quy mô lớn | Không ổn định khi triển khai trong môi trường phức tạp |
Gặp trở ngại khi tích hợp các dịch vụ ngoài Hadoop | Giám sát và báo cáo còn hạn chế. Không đáp ứng được nhu cầu của các tổ chức lớn |
Cạnh tranh với các công cụ quản lý Hadoop khác như mapR, Hortonworks, Cloudera | Yêu cầu tài nguyên hệ thống phức tạp |
Các nền tảng đám mây như AWS EMR, Google Cloud,…làm giảm sự cần thiết của Ambari | Hỗ trợ không đồng nhất giữa các hệ điều hành |
>>> Xem thêm: Bảo Mật Apache Bằng Let’s Encrypt trên CentOS 7
Những ứng dụng thực tế của Apache Ambari là gì?
Apache Ambari thực tế rất hữu ích trong việc quản lý và giám sát các cụm Hadoop. Một ví dụ đơn giản là khi các công ty sử dụng Hadoop để xử lý dữ liệu lớn, họ có thể dùng Ambari để theo dõi hiệu suất và trạng thái của các node trong cụm. Từ đó cài đặt và cấu hình phần mềm một cách dễ dàng.
Chẳng hạn, nếu bạn đang xây dựng một hệ thống phân tích dữ liệu lớn cho một website thương mại điện tử, Ambari giúp bạn quản lý và tối ưu hóa các dịch vụ trên Hadoop, đồng thời cung cấp giao diện trực quan để dễ dàng theo dõi các lỗi hoặc sự cố.
Cách cài đặt và sử dụng
Apache Ambari là công cụ quản lý và giám sát Hadoop với giao diện đồ họa dễ sử dụng. Để cài đặt, bạn chỉ cần làm theo các bước hướng dẫn chi tiết sau
Chuẩn bị
Đầu tiên, bạn cần kiểm tra tính tương thích giữa phiên bản Ambari và phiên bản HDP stack. Trình cài đặt Ambari yêu cầu trình duyệt đồ họa để chạy ứng dụng. Trình duyệt của bạn phải đáp ứng yêu cầu theo hệ điều hành.
Các phần mềm cần thiết trên mỗi máy chủ bao gồm Oracle Linux, RHEL, CentOS, SLES và Python. Bạn cũng cần có Debian hoặc Ubuntu.
Ambari yêu cầu các JDK (Bộ công cụ phát triển Java) tương thích. Bên cạnh đó, cần một cơ sở dữ liệu quan hệ như MySQL, Oracle, PostgreSQL, MariaDB cho quá trình cài đặt.
Chuẩn bị môi trường
Bước này bao gồm việc thiết lập SSH không cần mật khẩu và tài khoản người dùng. Cùng với cấu hình NTP, DNS, iptables và kết nối cơ sở dữ liệu.
Chuẩn bị Kho Lưu Trữ Cục Bộ
Cần thiết lập kho lưu trữ cục bộ để cải thiện hiệu suất và quản lý. Đầu tiên, tải và cấu hình các kho lưu trữ công cộng, có thể thực hiện mà không cần kết nối Internet. Sau đó, cấu hình file kho lưu trữ cho Ambari và các kho lưu trữ HDP Stack.
Cài đặt Ambari
- Bước này bao gồm tải kho lưu trữ Ambari và tiến hành cài đặt Ambari Server.
- Cần sử dụng các lệnh dòng lệnh cho các hệ điều hành khác nhau như Linux 6/7, SLES 12/11, Ubuntu 14/16, và Debian 7.
- Sau đó, bạn cài đặt Ambari Server và thiết lập, bao gồm cấu hình cơ sở dữ liệu Ambari, cài đặt JDK và tạo tài khoản người dùng.
Quản lý Packs
Các packs này cho phép bạn triển khai các dịch vụ cho cluster. Sau khi cài đặt các packs quản lý, cần cập nhật URL trong Ambari và khởi động lại server.
Tiếp theo là khởi động trình cài đặt Ambari.
Cài đặt, cấu hình và triển khai Cluster
- Mở server và đăng nhập vào Apache Ambari.
- Khởi động trình cài đặt Cluster, nhập tên cluster và chọn phiên bản.
- Kiểm tra các cluster và hoàn thành cài đặt.
Câu hỏi thường gặp
Apache Ambari có gì khác so với Dremio?
Dremio thì cung cấp hỗ trợ nguồn dữ liệu rộng lớn hơn. Hiệu suất truy vấn thì trực tiếp trên kho lưu trữ dữ liệu. Bên cạnh đó Dremio có chức năng data lakehouse nâng cao hơn.
Apache Ambari có an toàn khi sử dụng không?
Câu trả lời là có. Phần mềm cung cấp các tính năng tích hợp như Kerberos nên có thể kiểm soát quyền truy cập. Đồng thời tích hợp LDAP/AD và truyền dữ liệu được mã hoá. Do đó bạn có thể yên tâm khi sử dụng phần mềm này.
Lời kết
Như vậy, Apache Ambari là một công cụ đơn giản nhưng mạnh mẽ. Nếu bạn muốn quản lý các cluster Hadoop trên giao diện thân thiện thì đừng chần chừ tìm hiểu ngay Apache Ambari là gì. LANIT hy vọng đã đem tới những kiến thức hữu ích, đừng quên theo dõi để cập nhật nhiều thông tin công nghệ thú vị nhé!
LANIT- Nhà cung cấp dịch vụ lưu trữ Server, Hosting, Cloud VPS hàng đầu tại Việt Nam.