AIVật Vờ Đánh giá

Dùng Nano Banana Pro trong Gemini 3 Pro để giải toán, làm văn bằng ảnh: Không còn lỗi chữ, trình bày đẹp như học sinh giỏi!

    0

    Trước nay, các chatbot AI như Gemini hay ChatGPT thường gặp khó trong việc tạo văn bản bên trong hình ảnh. Chúng thường không thể tái tạo các nét chữ, ký tự một cách chuẩn xác và rõ ràng, dẫn đến chất lượng ảnh đầu ra bị ảnh hưởng ít nhiều. Tuy nhiên, với mô hình tạo ảnh Nano Banana Pro của Gemini, mọi chuyện đã khác. Khả năng xử lý văn bản, đặc biệt với ngôn ngữ tiếng Việt đã được cải thiện rất nhiều, không còn tình trạng văn bản biến dạng, sai lệch vị trí như trước.

    Trong bài viết dưới đây, mình sẽ thử trải nghiệm mô hình Nano Banana Pro để giải quyết một số vấn đề liên quan đến giáo dục. Mình sẽ yêu cầu Gemini giải toán, làm văn và trả kết quả dưới dạng ảnh, để kiểm chứng xem khả năng xử lý văn bản của mô hình mới đã tốt hay chưa.

    Xử lý các câu hỏi đơn giản

    Ở thử thách đầu tiên, mình khởi động Nano Banana Pro với một yêu cầu khá cơ bản: Yêu cầu AI chứng minh một bài toán dựa trên hệ tiên đề Peano, với đầu vào là một bức ảnh chụp bài toán. Thời gian xử lý của Gemini 3 Pro cho tác vụ này rơi vào khoảng từ 30 giây đến 1 phút. Đây là một khoảng thời gian chờ đợi chấp nhận được cho một tác vụ tạo ảnh phức tạp.

    Câu hỏi 1: Hãy suy luận, tính toán và tạo một bức ảnh có chứa đề bài và lời giải cho bài toán trong hình.

    Kết quả trả về khiến mình thực sự bất ngờ. Bức ảnh của Nano Banana Pro có độ nét rất cao, các con chữ được tái tạo sắc sảo. Mình đã yêu cầu Gemini tạo ra các dòng chữ viết tay và chất lượng thực tế rất tốt, không khác gì chữ viết của một học sinh thông thường. Thậm chí, Gemini còn tự động áp dụng các định dạng trình bày rất thông minh như gạch chân ở mục “Lời giải”.

    Chi tiết nhỏ này cho thấy AI không chỉ hiểu nội dung văn bản mà còn hiểu cả quy cách trình bày một bài toán thông thường. Đây là điểm mình đánh giá rất cao ở Nano Banana Pro trong việc tạo văn bản bên trong hình ảnh.

    Kết quả của câu hỏi 1

    Chuyển sang thử thách thứ hai, mình muốn làm khó Nano Banana Pro trên Gemini 3 Pro hơn một chút với một câu hỏi yêu cầu mô phỏng chữ viết tay trên giấy học sinh. Kịch bản ở đây là mô phỏng trường hợp học sinh chép lại một câu hỏi hóa học ra giấy, sau đó chụp lại và nhờ AI giải đáp.

    Câu hỏi 2: Hãy giải câu hóa học này ở phần phía dưới của bức ảnh, sử dụng chữ viết tay và có màu đen.

    Ở trường hợp này, Gemini đã chủ động thay đổi cấu trúc của tờ giấy nền. Màu giấy trông trắng và sáng hơn, phần background phía sau cũng được điều chỉnh để làm nổi bật nội dung chính. Tuy nhiên, điều quan trọng nhất là các con chữ bên trong vẫn giữ được độ rõ ràng tuyệt đối.

    Với môn Hóa học, các ký hiệu phản ứng, cân bằng phương trình hay các chỉ số hóa trị nhỏ ở chân nguyên tố là những chi tiết rất dễ bị AI làm lỗi. Thế nhưng, Nano Banana Pro đã xử lý mượt mà. Các phương trình hóa học được bố trí cân đối, dấu mũi tên phản ứng hay các con số đều chuẩn xác, dễ nhìn.

    Kết quả của câu hỏi 2

    Đáp án
    Đáp án
    Đáp án
    Câu hỏi
    Câu hỏi

    Đến với câu hỏi thứ ba, mình nâng độ khó cho Nano Banana Pro lên mức cao hơn với một bài toán hình học cấp Trung học cơ sở. Yêu cầu đặt ra là AI vừa phải vẽ hình minh họa chính xác, vừa phải viết lời giải bên cạnh sao cho kết quả cuối cùng là đúng.

    Câu hỏi 3: Giải bài toán dưới đây bằng cách vẽ hình và viết lời giải ở phía dưới đề bài trong hình, sử dụng chữ viết tay có màu đen.

    Gemini 3 Pro tiếp tục hoàn thành xuất sắc nhiệm vụ. Cách trình bày lời giải của AI rất khoa học: phần văn bản giải thích được đặt bên trái, trong khi hình vẽ minh họa nằm gọn gàng bên phải. Mình đã kiểm tra lại hình vẽ này và thấy nó hoàn toàn chuẩn xác với các dữ kiện của đề bài.

    Các yếu tố nhỏ nhưng quan trọng trong hình học như ký hiệu điểm, dấu vuông góc, ký hiệu góc hay độ (degree) đều được xử lý gọn gàng, sắc nét. Không có tình trạng các đường kẻ bị đứt đoạn hay các ký hiệu bị chồng chéo lên nhau.

    Kết quả của câu hỏi 3

    Câu hỏi
    Câu hỏi
    Đáp án
    Đáp án

    Tuy nhiên, người dùng cũng cần lưu ý về cách đặt câu lệnh (prompt). Để có được kết quả như ý, bạn phải đưa ra các điều kiện đầy đủ và chặt chẽ. Chẳng hạn ở ví dụ trên, mình đã yêu cầu cụ thể là “giải bài toán, viết lời giải, vẽ hình và sử dụng chữ viết tay màu đen”.

    Ngược lại, ở lần thử nghiệm tiếp theo, mình đã cắt bớt các yêu cầu chi tiết, chỉ đơn giản bảo Nano Banana Pro “giải toán trong hình ảnh”. Kết quả là Gemini tạo ra một hình ảnh hoàn toàn khác biệt.

    Câu hỏi 4: Hãy suy luận, tính toán và tạo một bức ảnh có chứa đề bài và lời giải cho bài toán trong hình.

    Mặc dù vẫn chứa đủ lời giải và hình vẽ, nhưng bố cục, font chữ và định dạng giấy nền đã bị thay đổi hoàn toàn, không còn giữ được nét tự nhiên của “bài làm học sinh” nữa. Điều này cho thấy vai trò quan trọng của người dùng trong việc tối ưu hóa câu lệnh.

    Kết quả của câu hỏi 4

    Đáp án
    Đáp án
    Đáp án
    Câu hỏi
    Câu hỏi

    Các thử thách khó hơn: làm văn, chấm điểm, nhận xét bài làm

    Tiếp theo, mình thử thách Nano Banana Pro với các tác vụ mang tính trừu tượng và phức tạp hơn. Thử thách đầu tiên trong nhóm này là yêu cầu Gemini viết một đoạn văn cảm thụ văn học, phân tích tác dụng của một phép tu từ trong thơ.

    Câu hỏi 5: Đóng vai một học sinh môn ngữ văn lớp 9, hãy phân tích và trả lời câu hỏi ở phần phía dưới của bức ảnh, sử dụng chữ viết tay có màu đen.

    Nhìn chung, Nano Banana Pro không gặp khó khăn gì trong việc tạo ra nội dung. Đoạn văn được trình bày sạch sẽ, đẹp mắt trên nền giấy ảo. Nội dung phân tích cũng đảm bảo sự chuẩn xác và chặt chẽ về mặt ý tứ, câu từ.

    Tuy nhiên, khi “soi” kỹ vào từng nét chữ, mình bắt đầu nhận ra một vài điểm hạn chế. Mặc dù chữ viết tay rất đẹp, nhưng nó lại mang lại cảm giác hơi máy móc. Các ký tự giống nhau được lặp lại y hệt nhau một cách gần như hoàn hảo. Ví dụ, trong một câu văn, tất cả các chữ “l”, chữ “y”, chữ “a” hay chữ “o” đều có hình dáng giống hệt nhau, không có sự sai khác tự nhiên như khi con người viết tay. Có vẻ như AI đang sử dụng một bộ font chữ viết tay cố định thay vì tạo ra các nét ngẫu nhiên.

    Tất nhiên, đây là điểm mà mình phải quan sát rất kỹ mới nhận ra được. Với nhu cầu sử dụng thông thường hoặc nhìn lướt qua, người dùng phổ thông gần như sẽ không phát hiện ra sự “nhân tạo” này. Tổng thể bài viết vẫn rất giống một trang vở sạch đẹp của học sinh.

    Kết quả của câu hỏi 5

    Đáp án
    Đáp án
    Đáp án
    Câu hỏi
    Câu hỏi

    Thử thách cuối cùng và cũng là khó nhất: Mình yêu cầu Gemini đóng vai giáo viên để chấm điểm và nhận xét một bài làm có sẵn. Mình đã chụp ảnh một lời giải toán của học sinh với chữ viết rất xấu, trình bày cẩu thả và sai đáp án để làm đề bài. Yêu cầu của mình là Gemini phải viết nhận xét bằng mực đỏ sang bên phải, chấm điểm chi tiết từng phần theo yêu cầu đưa ra.

    Câu hỏi 6: Hãy nhận xét và chấm điểm cho bài làm này, phần nhận xét và điểm nằm ở bên phải trong bức ảnh này. Mỗi câu làm chính xác đạt 5 điểm, tổng hai câu tối đa 10 điểm. Một lỗi sai trừ 1 điểm. Sử dụng chữ viết tay theo cách viết của giáo viên, có màu đỏ.

    Kết quả trả về thực sự ấn tượng và vượt ngoài mong đợi. Gemini ngay lập tức nhận diện được các lỗi sai của học sinh. Không chỉ nhận xét bằng lời, Nano Banana Pro còn thực hiện việc trừ điểm theo barem rất rõ ràng. Nó tổng kết số điểm cuối cùng và thậm chí còn viết thêm lời khuyên, lời động viên cho học sinh ở cuối bài.

    Đây là sự cải thiện vượt trội của Nano Banana Pro so với các thế hệ trước. Trước đây, việc yêu cầu Nano Banana Pro nhận diện chữ viết xấu đã khó, chưa nói đến việc chồng thêm một lớp thông tin phản hồi chính xác lên trên bức ảnh đó.

    Các con chữ trong phần nhận xét cũng được trình bày đẹp, sạch sẽ, không bị biến dạng hay lỗi vị trí. Nếu không để ý kỹ, học sinh hoàn toàn có thể tin rằng đây là một bài kiểm tra đã được giáo viên thật chấm và chụp lại.

    Kết quả của câu hỏi 6

    Câu hỏi
    Câu hỏi
    Đáp án
    Đáp án

    Một vài lưu ý

    Bên cạnh khả năng xử lý nội dung, chất lượng file ảnh đầu ra cũng là một điểm sáng đáng ghi nhận. Dung lượng các file ảnh do Gemini 3 Pro tạo ra giờ đây đã lớn hơn khá nhiều, đồng nghĩa với việc chi tiết ảnh được bảo toàn tốt hơn.

    Trước đây, các mô hình AI thường chỉ tạo ra ảnh với độ phân giải thấp, chỉ vài trăm pixel, khiến hình ảnh bị vỡ khi phóng to. Nhưng với Nano Banana Pro, các bức ảnh mình nhận được đều có độ phân giải trên 1.000 pixels, thậm chí có trường hợp lên tới gần 3.000 pixels.

    Tuy nhiên, để có được trải nghiệm tốt nhất, người dùng cần lưu ý một số vấn đề. Thứ nhất, độ chính xác của AI phụ thuộc rất lớn vào câu lệnh (prompt). Prompt cho Nano Banana Pro càng cụ thể, chi tiết về bố cục, màu sắc, font chữ thì kết quả càng sát với mong muốn.

    Thứ hai, dù rất mạnh mẽ nhưng AI vẫn còn tồn tại những giới hạn nhất định. Trong quá trình thử nghiệm, mình đã gặp lỗi khi yêu cầu Nano Banana Pro giải các câu hỏi trắc nghiệm vật lý theo kiểu “khoanh tròn vào đáp án đúng”.

    Cụ thể, khi mình yêu cầu Nano Banana Pro khoanh tròn vào các phương án A, B, C, D như cách học sinh làm bài thi trắc nghiệm, hệ thống đã không thể xử lý và báo lỗi. Có vẻ như thao tác tương tác trực tiếp lên các ký tự có sẵn theo kiểu này vẫn là một bài toán khó.

    Cuối cùng, cần nhấn mạnh rằng tất cả các bài thử nghiệm mình thực hiện trong bài viết này đều chỉ mang tính chất tham khảo kỹ thuật. Mục đích chính là để kiểm chứng năng lực xử lý của mô hình AI mới.

    Người dùng, đặc biệt là các bạn học sinh, sinh viên, chỉ nên xem đây là một công cụ hỗ trợ học tập, dùng để tham khảo hướng giải hoặc kiểm tra lại bài làm. Không nên lạm dụng nó để gian lận trong thi cử hay thay thế hoàn toàn việc tư duy. Việc phụ thuộc quá mức vào AI sẽ dẫn đến những hậu quả tiêu cực về kiến thức và kỹ năng trong tương lai.

    Comments