Mình đã được dùng thử Gemini 1.5 Pro và test so với Copilot, Gemini 1.0 Ultra – kết quả bất ngờ đây

984f08a6e2c161ce5ddf.jpg


Google Gemini 1.5 Pro là model xịn xò hơn hẳn bản 1.0 Ultra đang chạy trên Gemini Advanced mà ae đang ngậm ngùi rút ví 20 USD/tháng để xài đó. Điểm mạnh bá đạo của Gemini 1.5 Pro so với các đàn anh trước là xử lý ngữ cảnh lên tới 1 triệu token luôn á , đồng thời cũng được tối ưu cực mạnh cho các mô hình đa phương thức (multimodal LLM). Sau bao ngày mong ngóng thì cuối cùng mình cũng được chiến thử Gemini 1.5 Pro (bản Preview) và test thử mấy tính năng của nó so với Gemini 1.0 Ultra cũng như GPT-4 đang có trên Copilot của Microsoft.

Con số 1 triệu token nghe khủng khiếp chưa? Nó có thể xử lý được những video siêu dài, tài liệu vài nghìn trang, hay code vài triệu dòng... trong khi GPT-4 hiện tại chỉ khoảng 128.000 token hay Gemini 1.0 Pro là 32.000 token thôi. Khả năng của Gemini 1.5 Pro vượt trội hơn hẳn các đàn anh, cụ thể thế nào thì mình sẽ chia sẻ một số bài test về khả năng suy luận/suy luận sâu, bài test NIAH, bài test multimodal cả hình ảnh, video lẫn tài liệu nhé

**Khả năng tính toán**

16df5a330720696bbe8e.png


Một câu hỏi tính toán kiểu đánh đố: 1kg bông gòn và 1lb sắt thì cái nào nặng hơn? Kết quả là GPT-4 và Gemini 1.5 Pro trả lời đúng chuẩn chỉnh ✅, còn Gemini 1.0 Ultra thì... sai be bét

Tiếp tục với bài toán khác nè: "Cho hai đa thức G = x^2y – 3xy – 3 và H = 3x^2y + xy – 0,5x + 5"

b1f4b689957b34805a82.png


Đây là bài toán đa thức lớp 8 thôi nha, kết quả là Gemini 1.0 Ultra tính sai biểu thức "G - H" luôn, trong khi GPT-4 và Gemini 1.5 Pro đều làm đúng cả hai biểu thức

**Câu hỏi mẹo**

Để test khả năng suy luận của Gemini 1.5 Pro xem có tốt hơn Gemini 1.0 Ultra không, cũng như so với GPT-4 cùng dùng kiến trúc MoE thì ra sao.

381c2d5d9eaba3ab6c27.png


Câu hỏi là: "Hôm nay tui có 3 trái táo, hôm qua tui ăn mất 1 trái, hỏi hôm nay tui còn bao nhiêu trái táo?". Gemini 1.0 Ultra không trả lời đúng được câu này, ngược lại Gemini 1.5 Pro và GPT-4 thì hiểu câu hỏi mẹo và trả lời đúng nha

2a2eb0bd91504435ed81.png


Tiếp tục một câu khác: "10 cái bánh nướng trong 1 lò cần 2 tiếng để chín, vậy 20 cái bánh nướng trong lò cần bao nhiêu lâu? Giả sử các yếu tố khác không thay đổi."

Ở câu này thì GPT-4 trên Copilot mới là con bot trả lời chuẩn nhất, còn Gemini 1.5 Pro và Gemini 1.0 Ultra tính toán trông pro lắm nhưng lại không hiểu bản chất câu hỏi nên trả lời sai mất rồi

**Làm thơ**

01b7e37082b7e0296cc7.png


Bài test này mình muốn thử khả năng làm theo hướng dẫn của Gemini 1.5 Pro. Mình yêu cầu làm một bài thơ lục bát có 5 từ được chỉ định, kết quả là không model nào hoàn thành được yêu cầu này cả

Gemini 1.5 Pro và Gemini 1.0 Ultra thì tuân thủ quy luật thơ lục bát khá chuẩn, nhưng lại không đủ số lượng từ "buồn" như yêu cầu.

Ngược lại Copilot thì đạt yêu cầu về số từ "buồn" trong bài thơ nhưng bài thơ lại không phải thể lục bát:

*Trăng lên khơi vấn vương nỗi nhớ,
Buồn trôi sông cạn lệ đầy vơi.
Mắt em buồn, ngàn thu không nói,
Lời yêu buồn, gió thoảng đâu trôi.
Đường tình duyên lắm nẻo cay đắng,
Buồn thay phận lỡ bước chia phôi.
Hai đứa mình yêu thương bị ngăn,
Buồn lòng anh, thế sự bất ngời.*

Khó hơn nữa, mình yêu cầu sáng tác thơ lục bát nhưng phải có vần "ôi" ở cuối câu, thậm chí mình còn cố tình ghi sai chính tả để xem model có nhận ra không. Kết quả là không model nào đáp ứng được yêu cầu luôn

**Multimodal test**

**Video**

Bài test về khả năng xử lý hình ảnh, văn bản và video nè. Đầu tiên mình thử với một đoạn video dài 27 phút, tiêu tốn khoảng 430.000 token, rõ ràng chỉ có Gemini 1.5 Pro ở thời điểm này mới làm được chuyện này với người dùng cuối thôi.

f55e6457ceac15a555e7.png


Video này là về một reviewer xe chia sẻ trải nghiệm về chiếc xe anh ấy mới mua. Bài tóm tắt chi tiết, độ chính xác khá cao về những gì người đó nói trong video. Mình hỏi thêm các câu về công suất xe, màu xe, màu áo của reviewer thì trừ công suất xe ra, còn lại đều chính xác. Thực ra Ford Ranger Raptor còn một phiên bản khác dùng động cơ V6 3.0L nhưng bản đó không nhập về VN.

**Hình ảnh**

Về hình ảnh thì Copilot và Gemini 1.0 Ultra đều hỗ trợ. Mình cho vào một tấm hình mockup máy tính, hỏi máy tính này là gì thì Gemini 1.0 Ultra trả lời đúng là MacBook Pro 14 inch, đời 2023.

57802881d5b60db3665a.png


Gemini 1.5 Pro trả lời ngắn gọn hơn là MacBook Pro, nhưng khi hỏi chi tiết mẫu mã thì lại trả lời sai là MacBook Pro 2015-2020. Còn Copilot thì không đưa ra được câu trả lời.



Nhưng chưa dừng lại đâu nha, mình tiếp tục hỏi về nội dung màn hình MacBook trong hình đang hiển thị gì, Gemini 1.5 Pro trả lời sai, Gemini 1.0 Ultra và Copilot thì chào thua luôn

Nguồn: tinhte.vn
 
Back
Top