banner-news

Trong bài này

    Generative AI là gì? Khám phá trí tuệ nhân tạo tạo sinh [Part 1]

    27/12/2023

    Trong bối cảnh ngày nay, việc hiểu rõ Generative AI là gì chính là chìa khóa quan trọng để khám phá cơ hội và thách thức mới. Từ việc tạo ra nội dung sáng tạo đến giải quyết các vấn đề phức tạp, Generative AI hứa hẹn mở ra một tương lai mới, nơi sức mạnh của máy học và trí tuệ nhân tạo được chứng minh.

    Generative AI là gì? 

    Generative AI là gì?

    Generative AI (Trí tuệ nhân tạo tạo sinh) là một loại công nghệ trí tuệ nhân tạo có thể tạo ra nhiều loại nội dung khác nhau, bao gồm văn bản, hình ảnh, âm thanh và dữ liệu tổng hợp.

    Thực tế, công nghệ trí tuệ nhân tạo tạo sinh này không phải là hoàn toàn mới. Generative AI được giới thiệu vào những năm 1960 trong Chatbot. Nhưng phải đến năm 2014, với sự ra đời của Generative Adversarial Networks (GAN) hay Mạng đối nghịch tạo sinh - một loại thuật toán học máy - Generative AI mới có thể tạo ra hình ảnh, video và âm thanh chân thực. 

    Khả năng mới này đã mở ra những cơ hội bao gồm: lồng tiếng phim hay hơn và nội dung giáo dục phong phú hơn. Nó cũng giải quyết những lo ngại về “Deep Fake” – hình ảnh hoặc video giả mạo kỹ thuật số – và các cuộc tấn công an ninh mạng gây rủi ro cho các doanh nghiệp, bao gồm cả các yêu cầu bất chính bắt chước các cán bộ cấp cao để đề xuất, lan truyền thông tin sai lệch trong doanh nghiệp.

    LLM - large language models

    Hai tiến bộ bổ sung khác sẽ được thảo luận chi tiết hơn dưới đây cũng đã đóng một vai trò quan trọng trong việc giúp Generative AI trở thành xu hướng: Transformers (mô hình học máy) và các mô hình ngôn ngữ (language models) đột phá mà chúng đã kích hoạt. 

    • Transformers là một loại máy học giúp các nhà nghiên cứu có thể đào tạo các mô hình tham số lớn hơn mà không cần phải gắn nhãn trước cho tất cả dữ liệu. Do đó, các mô hình mới có thể được đào tạo trên hàng tỷ trang văn bản, mang lại câu trả lời có chiều sâu hơn. 

    Ngoài ra, Transformers đã mở khóa một khái niệm mới gọi là “attention” (sự chú ý) cho phép các mô hình theo dõi mối liên hệ giữa các từ trên các trang, chương và sách thay vì chỉ trong từng câu riêng lẻ. Và không chỉ từ ngữ: Transformers còn có thể sử dụng khả năng theo dõi các kết nối để phân tích code, protein, hóa chất và DNA.

    • LLM - large language models (Mô hình ngôn ngữ lớn) - tức là các mô hình có hàng tỷ hoặc thậm chí hàng nghìn tỷ tham số - đã mở ra một kỷ nguyên mới, trong đó các mô hình Generative AI có thể viết văn bản hấp dẫn, vẽ hình ảnh chân thực và thậm chí tạo ra các bộ sitcom có tính giải trí cao.

    Hơn nữa, những đổi mới trong trí tuệ nhân tạo đa thể thức (multimodal AI0 cho phép tạo nội dung trên nhiều loại phương tiện, bao gồm văn bản, đồ họa và video. Đây là cơ sở cho các công cụ như Dall-E tự động tạo hình ảnh từ mô tả văn bản hoặc tạo chú thích văn bản từ hình ảnh.

    Mặc dù có những đột phá này, chúng ta vẫn đang ở giai đoạn đầu sử dụng Generative AI để tạo ra văn bản có thể đọc được và đồ họa chân thực. Việc triển khai ban đầu có vấn đề về độ chính xác và sai lệch, cũng như có xu hướng tạo ra hình ảnh ảo và trả lại những câu trả lời kỳ cục.

    Tuy nhiên, tiến bộ cho đến nay chỉ ra rằng khả năng vốn có của generative AI này về cơ bản có thể thay đổi cách các doanh nghiệp vận hành. Trong tương lai, công nghệ này có thể giúp viết mã, tạo ra các loại thuốc mới, phát triển sản phẩm, thiết kế lại quy trình kinh doanh và chuyển đổi chuỗi cung ứng.

    Generative AI hoạt động như thế nào?

    Generative AI bắt đầu với một yêu cầu, có thể ở dạng văn bản, hình ảnh, video, thiết kế, nốt nhạc hoặc bất kỳ thông tin đầu vào nào mà hệ thống AI có thể xử lý. Các thuật toán AI khác nhau sau đó sẽ trả về nội dung mới dựa trên yêu cầu đó. Nội dung có thể bao gồm các bài tiểu luận, giải pháp cho vấn đề hoặc nội dung giả mạo thực tế được tạo từ hình ảnh hoặc âm thanh của một người.

    Các phiên bản đầu tiên của Generative AI yêu cầu gửi dữ liệu qua API hoặc một quy trình phức tạp khác. Các nhà phát triển phải làm quen với các công cụ đặc biệt và viết ứng dụng bằng các ngôn ngữ như Python. 

    Giờ đây, những người tiên phong trong lĩnh vực Generative AI đang phát triển trải nghiệm người dùng tốt hơn cho phép bạn mô tả yêu cầu bằng ngôn ngữ đơn giản. Sau phản hồi ban đầu, bạn cũng có thể tùy chỉnh kết quả bằng phản hồi về phong cách, giọng điệu và các yếu tố khác mà bạn muốn nội dung tạo ra muốn phản ánh.

    Các mô hình Generative AI 

    Các mô hình Generative AI kết hợp nhiều thuật toán AI khác nhau để thể hiện và xử lý nội dung. 

    Ví dụ: Để tạo ra văn bản, các kỹ thuật xử lý ngôn ngữ tự nhiên khác nhau sẽ chuyển đổi các ký tự thô (Ví dụ: chữ cái, dấu chấm câu và từ) thành câu, các phần của ngôn ngữ, thực thể và hành động, được biểu diễn dưới dạng Vectơ bằng nhiều kỹ thuật mã hóa.

    Tương tự, hình ảnh được chuyển đổi thành nhiều yếu tố hình ảnh khác nhau, cũng được thể hiện dưới dạng Vectơ. Cần lưu ý rằng những kỹ thuật này cũng có thể mã hóa thành kiến, phân biệt chủng tộc, lừa dối và sự khoa trương có trong dữ liệu đào tạo.

    Sau khi các nhà phát triển quyết định cách đại diện cho thế giới, họ sẽ áp dụng một mạng lưới nơ-ron thần kinh cụ thể để tạo ra nội dung mới nhằm đáp lại một truy vấn hoặc lời nhắc. Các kỹ thuật như GANs và VAEs (Variational autoencoders) - mạng lưới nơ-ron thần kinh với bộ giải mã và bộ mã hóa - phù hợp để tạo ra khuôn mặt người thực, dữ liệu tổng hợp huấn luyện trí tuệ nhân tạo hoặc thậm chí là bản sao của những cá nhân cụ thể.

    Những tiến bộ gần đây về transformers như biểu diễn thể hiện bộ mã hóa hai chiều của Google từ Transformers (BERT-Google's Bidirectional Encoder Representations), GPT của OpenAI và Google AlphaFold cũng đã tạo ra các mạng nơ-ron thần kinh không chỉ có thể mã hóa ngôn ngữ, hình ảnh và protein mà còn tạo ra nội dung mới.

    Generative AI kết hợp các thuật toán AI khác nhau

    Mạng lưới nơ-ron đang biến đổi Generative AI như thế nào

    Các nhà nghiên cứu đã tạo ra trí tuệ nhân tạo và các công cụ khác để tạo nội dung theo cách lập trình từ thời kỳ đầu của trí tuệ nhân tạo AI. Những phương pháp ban đầu, được biết đến với tên gọi là hệ thống dựa trên quy tắc (rule-based systems) và sau này là "hệ thống chuyên gia" (expert systems), đã sử dụng các quy tắc được tạo ra một cách rõ ràng để tạo ra phản hồi hoặc tập dữ liệu.

    Mạng lưới thần kinh (Neural networks), vốn là nền tảng của phần lớn các ứng dụng AI và học máy ngày nay, đã lật ngược vấn đề. Được thiết kế để mô phỏng cách thức hoạt động của bộ não con người, mạng lưới nơron “học” các quy tắc từ việc tìm kiếm các mẫu trong các tập dữ liệu hiện có. Được phát triển vào những năm 1950 và 1960, các mạng nơ-ron đầu tiên bị hạn chế do thiếu sức mạnh tính toán và bộ dữ liệu nhỏ. Phải đến khi dữ liệu lớn (big data) xuất hiện vào giữa những năm 2000 và những cải tiến về phần cứng máy tính, mạng lưới nơron mới trở nên thiết thực trong việc tạo ra nội dung.

    Lĩnh vực này tăng tốc khi các nhà nghiên cứu tìm ra cách khiến mạng lưới nơron chạy song song trên các đơn vị xử lý đồ họa (GPUs) đang được sử dụng trong ngành công nghiệp trò chơi máy tính để tạo ra trò chơi điện tử. Các kỹ thuật học máy mới được phát triển trong thập kỷ qua, bao gồm mạng đối nghịch tạo sinh (GANs) và transformers nói trên, đã tạo tiền đề cho những tiến bộ đáng chú ý gần đây trong nội dung do AI tạo ra.

    >> Xem tiếp: Các trường hợp sử dụng Generative AI [Part 2]

    Dall-E, ChatGPT và Bard là gì? 

    ChatGPT, Dall-E và Bard là các giao diện Trí tuệ Nhân tạo tạo ra phổ biến hiện nay.

    • Dall-E: Được huấn luyện trên một bộ dữ liệu lớn gồm các hình ảnh và mô tả văn bản tương ứng. Dall-E là một ví dụ về ứng dụng Trí tuệ nhân tạo đa phương tiện nhận biết các kết nối qua nhiều phương tiện, như thị giác, văn bản và âm thanh. 

    Trong trường hợp này, nó kết nối ý nghĩa của từ với các yếu tố hình ảnh. Nó được xây dựng bằng cách sử dụng triển khai GPT của OpenAI vào năm 2021. 

    Dall-E 2, một phiên bản thứ hai mạnh mẽ hơn, được phát hành vào năm 2022. Nó cho phép người dùng tạo ra hình ảnh theo nhiều phong cách khác nhau dựa trên yêu cầu của người dùng.

    • ChatGPT: Chatbot được trang bị Trí tuệ nhân tạo đã gây sốt trên toàn thế giới vào tháng 11 năm 2022 được xây dựng trên triển khai GPT-3.5 của OpenAI. OpenAI đã cung cấp một cách tương tác và điều chỉnh các phản hồi văn bản thông qua một giao diện trò chuyện với phản hồi tương tác. Các phiên bản trước của GPT chỉ có thể truy cập thông qua một API. 

    GPT-4 đã được phát hành vào ngày 14 tháng 3 năm 2023. Chat GPT tích hợp lịch sử của cuộc trò chuyện với người dùng vào kết quả của nó, mô phỏng một cuộc trò chuyện thực tế. Sau sự phổ biến đáng kể của giao diện GPT mới, Microsoft đã công bố một đầu tư mới quan trọng vào OpenAI và tích hợp một phiên bản của GPT vào công cụ tìm kiếm Bing của mình. 

    Dall-E, Bard và ChatGPT

    • Bard: Google là một những nhà tiên phong khác trong việc sử dụng các kỹ thuật AI biến hình để xử lý ngôn ngữ, protein và các loại nội dung khác. Google đã công bố mã nguồn mở một số mô hình này cho các nhà nghiên cứu. Tuy nhiên, họ chưa bao giờ phát hành giao diện công khai cho các mô hình này. 

    Quyết định triển khai GPT vào Bing của Microsoft đã thúc đẩy Google phải gấp rút ra mắt một chatbot hướng tới công chúng. Google Bard ra đời, được xây dựng trên phiên bản nhẹ của dòng mô hình ngôn ngữ lớn LaMDA. 

    Google đã gặp một tổn thất đáng kể về giá cổ phiếu sau màn ra mắt vội vã của Bard sau khi mô hình ngôn ngữ nói sai rằng “Kính thiên văn Webb là thiết bị đầu tiên phát hiện ra một hành tinh bên ngoài hệ mặt trời”.

    Trong khi đó, việc triển khai Microsoft và ChatGPT cũng bị mất uy tín trong thời gian đầu ra mắt do kết quả không chính xác và hành vi thất thường. Kể từ đó, Google đã tiết lộ phiên bản Bard mới được xây dựng trên LLM tiên tiến nhất của mình, PaLM 2, cho phép Bard phản hồi hiệu quả và trực quan hơn trước các truy vấn của người dùng.

    Nguồn: Techtarget

    CMC Cloud - Giải pháp Điện toán đám mây Toàn diện & Linh hoạt nhất. Cho phép tùy biến sử dụng và quản trị 25+ dịch vụ.


      content-banner
      News Detail - Footer Email MKT

      Đăng ký nhận thông tin

      Bạn muốn cập nhật thông tin mới nhất từ CMC Cloud?! Hãy để lại địa chỉ email của bạn ngay để nhận những bản tin bổ ích

      back to top

      logo

      © 2023, CMC Cloud. All rights reserved.

      Business Registration Certificate

      Giấy ĐKKD: 0102900049. Nơi cấp: Sở Kế hoạch & Đầu tư Thành phố Hà Nội

      Chịu trách nhiệm nội dung: Đặng Tùng Sơn