Published on

ChatGPT hoạt động như thế nào?

Authors

    join our community

    ChatGPT là gì?

    ChatGPT, viết tắt của Chat Generative Pre-training Transformer, là một chatbot do công ty OpenAI của Mỹ phát triển và ra mắt vào tháng 11 năm 2022. ChatGPT được xây dựng dựa trên GPT-3.5 - một dòng mô hình ngôn ngữ lớn của OpenAI đồng thời được tinh chỉnh bằng cả hai kỹ thuật học tăng cường lẫn học có giám sát. ChatGPT được ra mắt vào 30/11/2011, và đã đạt được 10 triệu người dùng trong vòng 1 tuần. Đây là ứng dụng đạt 10 triệu người dùng nhanh nhất trong lịch sử.

    ChatGPT hoạt động như thế nào?

    ChatGPT hiện đang vô cùng phổ biến và trở thành ứng dụng đạt 10 triệu người dùng nhanh nhất trong lịch sử. Tính ứng dụng của ChatGPT hiện nay là không thể bàn cãi, tuy nhiên OpenAI hiện chưa công bố nguyên tắc hoạt động của ChatGPT. Vậy ChatGPT hoạt động như thế nào? Bài viết dưới đây sẽ đưa ra một mô hình hoạt động của ChatGPT dựa trên các thông tin công khai của OpenAI.

    ChatGPT

    1. Training

    Để đào tạo mô hình ChatGPT, có hai giai đoạn:

    • Pre-training (Tiền huấn luyện): Trong giai đoạn này, mô hình GPT (decoder-only transformer) được training dựa trên một lượng lớn dữ liệu trên Internet. Mục tiêu là đào tạo một mô hình có thể dự đoán các từ trong tương lai được đưa ra một câu theo cách đúng ngữ pháp và có ý nghĩa về mặt ngữ nghĩa tương tự như các dữ liệu internet. Sau giai đoạn tiền huấn luyện, mô hình có thể hoàn thành các câu cho sẵn nhưng không có khả năng trả lời câu hỏi.

    • Fine-tuning (Tinh chỉnh): Giai đoạn này là quy trình gồm 3 bước biến mô hình được đào tạo trước thành mô hình ChatGPT có khả năng trả lời các câu hỏi:

      • Thu thập dữ liệu (câu hỏi và câu trả lời) và tinh chỉnh mô hình được đào tạo trước dựa trên dữ liệu này. Mô hình này hoạt động bằng cách lấy một câu hỏi làm đầu vào và học cách tạo ra câu trả lời tương tự như dữ liệu đã được huấn luyện.
      • Thu thập thêm dữ liệu (câu hỏi, một số câu trả lời) và huấn luyện reward model để xếp hạng những câu trả lời này từ phù hợp nhất đến ít phù hợp nhất.
      • Sử dụng phương pháp học tăng cường - Reinforcement learning (PPO optimization) để tinh chỉnh mô hình giúp tăng độ chính xác của các câu trả lời.

    2. Trả lời các câu hỏi

    Bước 1: Người dùng nhập đầy đủ câu hỏi. Ví dụ: “Giải thích cách thức hoạt động của thuật toán phân loại”.

    Bước 2: Câu hỏi được gửi đến bộ phận kiểm duyệt nội dung. Cấu phần này đảm bảo rằng câu hỏi không vi phạm nguyên tắc an toàn và lọc các câu hỏi không phù hợp.

    Bước 3-4: Nếu thông tin đầu vào vượt qua kiểm duyệt nội dung, thì thông tin đầu vào đó sẽ được gửi đến mô hình chatGPT. Nếu đầu vào không vượt qua kiểm duyệt nội dung, nó sẽ chuyển thẳng sang tạo phản hồi mẫu, đưa ra các lý do để từ chối trả lời câu hỏi.

    Bước 5-6: Sau khi mô hình tạo phản hồi, nó sẽ được gửi lại đến thành phần kiểm duyệt nội dung. Điều này đảm bảo phản hồi được tạo là an toàn, vô hại, không thiên vị, v.v.

    Bước 7: Nếu đầu vào vượt qua kiểm duyệt nội dung, nó sẽ được hiển thị cho người dùng. Nếu đầu vào không vượt qua kiểm duyệt nội dung, nó sẽ chuyển sang tạo phản hồi mẫu và hiển thị câu trả lời mẫu cho người dùng.

    Tham khảo: blog.bytebytego.com

    Xem thêm: Hướng dẫn đăng ký ChatGPT tại Việt Nam

    Join our community:
    • • •