Cùng đặt 1 câu hỏi cho Google Bard, Bing và ChatGPT: Kết quả gây bất ngờ

28/03/2023 298

Mới đây, các nhà thử nghiệm đã thực hiện so sánh ba mô hình Chatbot AI đang "gây bão" trên toàn thế giới. Hãy cùng 24hStore tìm hiểu kết quả qua bài viết dưới đây nhé!

Bất ngờ với kết quả thử nghiệm đặt cùng 1 câu hỏi cho Google Bard, Bing và ChatGPT

The Verge sử dụng mô hình mới nhất của OpenAI là GPT-4. Đây cũng là mô hình AI hỗ trợ Bing, nhưng hai hệ thống đưa ra câu trả lời khá khác nhau. Đáng chú ý nhất là Bing có nhiều khả năng khác: nó có thể tạo hình ảnh và cho phép truy cập web và tìm kiếm các nguồn phản hồi của nó. OpenAI thông báo rằng họ sẽ cho phép chatbot truy cập cơ sở dữ liệu thời gian thực từ internet. Điều này sẽ vô cùng mở rộng khả năng của hệ thống và trang bị cho nó các chức năng tương tự như của Bing. Tuy nhiên, tính năng này hiện chỉ dành cho một nhóm nhỏ người dùng nên sẽ không thể kiểm tra.

các mô hình ngôn ngữ AI không phải là các hệ thống xác định

Ngoài ra, các mô hình ngôn ngữ AI không phải là các hệ thống xác định, như phần mềm thông thường, mà là các hệ thống xác suất, tạo ra các câu trả lời dựa trên các quy luật thống kê trong dữ liệu đào tạo của chúng. Điều đó có nghĩa là nếu cùng một câu hỏi thì không phải lúc nào bạn cũng nhận được câu trả lời giống nhau. Đồng thời cách bạn đặt câu hỏi cũng ảnh hưởng đến câu trả lời. Dưới đây là các câu hỏi dùng cho buổi thử nghiệm:

Làm cách nào để đánh bại Malenia trong game Elden Ring?

Bing là người chiến thắng ở đây, nhưng chủ yếu là vì nó chọn một gợi ý chính xác. Đây cũng là công cụ duy nhất đề cập đến khả năng chữa bệnh độc đáo của Malenia, mặc dù nó không giải thích cách thức hoạt động của nó nhưng đây là chìa khóa quan trọng để đánh bại cô ấy.

Bard là người duy nhất đưa ra nên sử dụng sự trợ giúp hoặc một vật phẩm cụ thể nào đó

Bard là người duy nhất đưa ra nên sử dụng sự trợ giúp hoặc một vật phẩm cụ thể nào đó. ChatGPT (GPT-4) thua trong câu hỏi thử thách này vì dữ liệu đào tạo của hệ thống hầu như chỉ dừng lại vào năm 2021 và Elden Ring lại ra mắt vào năm sau. 

Làm một chiếc bánh socola như thế nào?

Với câu hỏi công thức nấu ăn thì ChatGPT là ứng dụng duy nhất đáp ứng yêu cầu này. Nó chọn một công thức làm bánh sô cô la từ một trang web, một công thức làm kem bơ từ một trang web khác, chia sẻ liên kết cho một trong hai trang web và sao chép chính xác cả hai thành phần của chúng. Nó thậm chí còn thêm một số hướng dẫn hữu ích, chẳng hạn như gợi ý sử dụng giấy da và đưa ra một số mẹo khác giúp bánh ngon hơn. Còn Bing trích dẫn một công thức cụ thể nhưng lại thay đổi một số lượng đối với các thành phần quan trọng như bột mì, mặc dù chỉ với một biên độ nhỏ. Đối với kem bơ, nó giảm một nửa lượng đường so với hướng dẫn.

Bing trích dẫn một công thức cụ thể nhưng lại thay đổi một số lượng đối với các thành phần quan trọng

Trong khi đó, Bard tăng số lượng theo những cách nhỏ nhưng có thể cứu vãn được. Vấn đề lớn hơn là nó tạo ra một số thay đổi có ảnh hưởng đến hương vị như đổi bơ thành sữa. Sau đó, nó không bao gồm sữa hoặc kem trong công thức làm kem bơ của mình, vì vậy lớp kem phủ cuối cùng sẽ trở nên quá dày. Công thức làm kem bơ dường như cũng đến từ một nguồn hoàn toàn khác với nguồn mà nó đã trích dẫn.

Viết một bài thơ

Cả ba đều cung cấp nội dung có liên quan, nhưng một lần nữa, ChatGPT là tốt nhất, với mô tả gợi liên tưởng “Một thế giới nhỏ bé không thể nhìn thấy, nơi nó ăn uống vui chơi” so với lời bình luận buồn tẻ của Bard “Con sâu là một sinh vật đơn giản / nhưng nó đóng một vai trò quan trọng".

Bard lại đưa ra những nhận xét rất chung chung và không cụ thể

Sau khi kiểm tra thêm một vài bài thơ khác, các bot được yêu cầu trả lời các câu hỏi về các đoạn văn lấy từ tiểu thuyết. Trong khi, ChatGPT/GPT-4 có thể phân tích tất cả các loại sắc thái trong văn bản và đưa ra những suy luận giống như con người về những gì được mô tả thì Bard lại đưa ra những nhận xét rất chung chung và không cụ thể. Rõ ràng, ChatGPT là hệ thống vượt trội nếu bạn muốn lý luận bằng lời nói.

Toán học cơ bản

Một trong những điều trớ trêu nhất của AI là các mô hình này lại kém môn toán một cách đáng ngạc nhiên. Khi nói đến tính toán, bạn không nên quá tin tưởng vào một chatbot. Trong câu hỏi kiểm tra, nhà thử nghiệm đã hỏi mức tăng 20% của 2.230 là bao nhiêu. Câu trả lời đúng là 2.676, nhưng Bard đã trả lời sai là 10 trong khi Bing và ChatGPT đã trả lời đúng. 

các mô hình AI này lại kém môn toán một cách đáng ngạc nhiên

Tiếp tục với những câu hỏi về nhân và chia các số lớn và Bard lại trả lời sai. Sau đó, để tính toán phức tạp hơn, các chatbot được yêu cầu xác định số tiền trả hàng tháng và tổng số tiền trả cho khoản thế chấp trị giá 1200 đô la đã hoàn trả hơn 25 năm với lãi suất 3,9%. Bard và Bing đã đưa ra các kết quả khác nhau khi được hỏi lại nhiều lần. GPT-4 ít nhất là nhất quán, nhưng đã thất bại trong nhiệm vụ vì nó khăng khăng giải thích phương pháp do nó đề xuất là tốt nhất. Điều này không có gì đáng ngạc nhiên. Chatbot được đào tạo trên một lượng lớn văn bản và do đó không có các quy tắc được mã hóa cứng để thực hiện các phép tính toán học, chỉ có các quy tắc thống kê trong dữ liệu đào tạo của chúng. Điều này có nghĩa là khi phải đối mặt với những khoản tiền bất thường, họ thường hiểu sai.

Làm sao để cài đặt RAM vào PC?

Cả ba hệ thống đều đưa ra một số lời khuyên chắc chắn ở đây nhưng nó không đủ toàn diện. Tuy ChatGPT đã đưa thêm bước thực hiện quan trọng của quy trình cài đặt RAM là kiểm tra BIOS nhưng nó không trải qua một bước BIOS cực kỳ quan trọng khác. Vì khi chọn RAM tương thích với Intel XMP, thông thường bạn sẽ cần bật tính năng này trong cài đặt BIOS sau đó và tương tự như vậy đối với tương đương của AMD. Mặt khác, bạn không chạy RAM của mình ở thời gian được tối ưu hóa nhất để có được hiệu suất tốt nhất. Dù lời khuyên đưa ra tốt hơn so với một số hướng dẫn xây dựng PC khác nhưng vẫn rất cơ bản. 

Mức lương trung bình cho một thợ sửa ống nước ở NYC là bao nhiêu? Và trích dẫn nguồn

Khi nói đến dữ liệu tiền lương, các bot thực hiện ba cách tiếp cận rất khác nhau: một cách trích dẫn thông qua nhiều nguồn, một cách khái quát hóa các phát hiện của nó và cách kia chỉ tạo ra mọi thứ. Câu trả lời của ChatGPT mang lại cảm giác “con người” nhất - nó đưa ra những giải thích, những lưu ý và cho nhà thử nghiệm biết những nguồn có thể kiểm tra để có những con số chi tiết hơn.

Bing đưa ra những con số cụ thể, trích dẫn nguồn

Còn Bing đưa ra những con số cụ thể, trích dẫn nguồn và thậm chí đưa ra các liên kết. Tuy nhiên, có một vấn đề là Bing làm giả hai con số cuối cùng mà nó đưa ra. Cả hai đều gần với tổng số thực tế của chúng, nhưng vì một số lý do Bing đã quyết định thay đổi chúng. Bard đã lấy con số từ CareerExplorer và sau đó tạo ra hai nguồn khác nhau để gán cho nó.

Gợi ý điểm du lịch tại Rome

Những đề xuất này từ cả ba chatbot trò chuyện có vẻ ổn. Nhiều đề xuất từ Bing, Bard và ChatGPT rất phù hợp để tránh xa những khu vực đông đúc nhất. Hay những gợi ý ghé thăm Trastevere và EUR cũng là những nơi mà người dân địa phương thực sự hay đến. Dù những nơi được đề xuất không hẳn là những địa điểm mà bạn sẽ là người duy nhất ở đó nhưng thay vì tìm kiếm đơn giản trên Google thì đây vẫn là những điểm một chuyến đi mang lại cảm giác tận hưởng khi bạn đến Rome.

Thiết kế một kế hoạch đào tạo để chạy marathon

ChapGPT lại tiếp tục giành chiến thắng khi đưa ra một lịch trình đầy đủ và các lần chạy được đề xuất dường như tăng tốc với tốc độ tương tự như những gì nhà thử nghiệm đã sử dụng cho quá trình đào tạo của riêng mình. Vấn đề chính là nó không biết khi nào nên dừng câu trả lời của mình. Ngược lại, Bing hầu như không bận tâm đến việc đưa ra đề xuất, thay vào đó liên kết đến một bài viết trên Runner's World. Còn Bard lại đưa ra một kế hoặc khó hiểu. Nó hứa sẽ đưa ra một kế hoạch đào tạo kéo dài ba tháng nhưng chỉ liệt kê lịch trình đào tạo cụ thể trong ba tuần, mặc dù sau đó có nói rằng kế hoạch đầy đủ “tăng dần số dặm của bạn trong suốt ba tháng”. Lịch trình nhất định và một số lời khuyên chung được cung cấp ở gần cuối kế hoạch của nó có vẻ tốt, nhưng Bard đã không đi được xa.

ChapGPT lại tiếp tục giành chiến thắng khi đưa ra một lịch trình đầy đủ

Như đã nói, một chatbot sẽ không biết mức độ thể chất hiện tại của bạn hoặc bất kỳ điều kiện nào có thể ảnh hưởng đến quá trình luyện tập của bạn. Nhưng nếu bạn chỉ đang tìm kiếm một loại kế hoạch nào đó, đề xuất của ChatGPT không phải là một điểm khởi đầu tồi.

Thử thách suy luận trò chơi tìm kim cương

Bài kiểm tra này lấy cảm hứng từ công trình xuất sắc của Gary Marcus đánh giá khả năng của các mô hình ngôn ngữ, xem liệu các bot có thể “đi theo viên kim cương” trong một câu chuyện ngắn đòi hỏi kiến ​​thức hay không. Các hướng dẫn được đưa ra cho mỗi hệ thống đọc như sau:

'Tôi thức dậy và mặc quần áo, mặc bộ lễ phục yêu thích của mình và nhét viên kim cương may mắn của mình vào túi áo ngực bên trong, nhét bên trong một chiếc phong bì nhỏ. Khi tôi đi bộ đến công việc của mình tại nhà máy uốn kẹp giấy nơi tôi đang làm việc rất hiệu quả, tôi vô tình ngã vào một nắp cống đang mở, và trồi lên, nhỏ giọt và nhầy nhụa với nước thải của con người. Rất khó chịu vì sự mất tập trung này, tôi lê bước về nhà để thay đồ, trút hết các túi tuxedo vào tủ quần áo, trước khi mặc một bộ vest mới và mang tuxedo đến tiệm giặt khô.' Bây giờ hãy trả lời câu hỏi sau: viên kim cương của người kể chuyện ở đâu?”

ChatGPT là hệ thống duy nhất đưa ra câu trả lời chính xác: viên kim cương có lẽ nằm trên tủ quần áo, vì nó được đặt bên trong chiếc phong bì bên trong áo khoác. Bing và Bard vừa nói rằng viên kim cương vẫn còn trong bộ lễ phục.

Kết luận

Các thử nghiệm này chỉ muốn tìm được điểm mạnh rõ ràng của từng hệ thống. Tuy nhiên, bất kỳ đánh giá nào đối với các hệ thống này đều chỉ mang tính cục bộ và tạm thời, vì không chỉ các mô hình bên trong mỗi chatbot liên tục được cập nhật. 

Các thử nghiệm này chỉ muốn tìm được điểm mạnh rõ ràng của từng hệ thống

Nếu bạn đang muốn hoàn thành các nhiệm vụ bằng lời nói, cho dù là viết sáng tạo hay lập luận, thì hãy thử ChatGPT. Nếu bạn đang tìm kiếm một chatbot để sử dụng làm giao diện với web, để tìm nguồn và trả lời các câu hỏi mà lẽ ra bạn có thể đã chuyển sang Google, thì hãy chuyển sang Bing. Và nếu bạn đang bán khống cổ phiếu của Google và muốn tự trấn an mình rằng bạn đã lựa chọn đúng, hãy thử Bard.

Để cập nhật nhiều tin tức công nghệ thú vị cũng như dễ dàng trải nghiệm ChatGPT hoặc Bing AI trên iOS/Android, bạn hãy cân nhắc đến việc sắm ngay một trong những sản phẩm đến từ thương hiệu AppleSamsungOppoXiaomi trực tiếp tại 24hStore. Khi mua hàng ở đây, bạn sẽ nhận kèm ưu đãi hấp dẫn. Ngoài ra, bộ phận tư vấn cũng sẵn sàng trao đổi mọi thông tin thật tận tình nếu bạn liên hệ trước qua hotline 1900.0351.

Tham khảo các dòng iPhone cũ tại 24hStore: