Chatbot Arena là bảng xếp hạng AI do chính người dùng bình chọn. Ảnh: Midjourney/THE DECODER.

Cũng như bảng xếp hạng Billboard Hot 100 là thước đo tiêu chuẩn cho độ phổ biến của các sản phẩm âm nhạc, các chatbot Trí tuệ Nhân tạo (AI) cũng có một “đấu trường” riêng được xây dựng và điều hành bởi hai nghiên cứu sinh mang tên “Chatbot Arena”.

Hai người bạn cùng phòng Anastasios Angelopoulos và Wei-Lin Chiang không ngờ rằng dự án nghiên cứu của họ đã nhanh chóng trở thành bảng xếp hạng được theo dõi nhiều nhất về các hệ thống AI.

Cách mới để đánh giá AI

Ra mắt vào tháng 4/2023, Chatbot Arena nhanh chóng trở thành một hiện tượng khi thu hút hơn 4.700 lượt bình chọn chỉ trong tuần đầu tiên.

Theo truyền thống, hiệu năng của các công nghệ AI được đánh giá qua các bài kiểm tra chuyên sâu về toán học, khoa học và luật pháp. Tuy nhiên, Chatbot Arena cung cấp một phương pháp đánh giá mới, cho phép người dùng trực tiếp so sánh khả năng của các mô hình AI thông qua việc đặt câu hỏi và nhận câu trả lời.

Những đánh giá này được tổng hợp thành một bảng xếp hạng, nơi các tên tuổi lớn của Thung lũng Silicon như OpenAI, Google và Meta Platforms tranh giành ngôi vị cao nhất.

Bang xep hang AI anh 1

Anastasios Angelopoulos (phải) và Wei-Lin Chiang (trái), hai nhà đồng sáng lập Chatbot Arena. Ảnh: Laura Morton/WSJ.

“Mọi người đều đang cố gắng để đứng đầu bảng xếp hạng này, thật tuyệt vời khi một vài sinh viên tập hợp lại và có thể tạo ra tác động to lớn như vậy”, Joseph Spisak, giám đốc quản lý sản phẩm tại Meta Platforms, cho biết.

Khi cuộc đua AI ngày càng “nóng lên”, bất kỳ lợi thế nào so với đối thủ cạnh tranh cũng có thể tạo ra sự khác biệt lớn trong việc thu hút khách hàng và nhân tài. Điều này càng khiến Chatbot Arena thu hút sự chú ý.

Từ khi ra mắt với chỉ 9 mô hình AI, Chatbot Arena đã không ngừng mở rộng, hiện nay đã đánh giá và xếp hạng hơn 170 mô hình khác nhau với hơn hai triệu lượt bình chọn. Nền tảng này cũng cung cấp các bảng xếp hạng chi tiết cho nhiều lĩnh vực như sáng tạo nội dung và lập trình.

Chatbot Claude của Anthropic hiện đứng đầu bảng xếp hạng, sau khi soán ngôi OpenAI vào tháng 3 năm nay.

Đánh giá theo cảm tính

Các nhà nghiên cứu đã nhận thấy rằng các bài kiểm tra học thuật truyền thống đang dần mất đi hiệu lực. Nguyên nhân là do các câu hỏi trong những bài kiểm tra này đã được tích hợp vào các mô hình ngôn ngữ lớn (LLM), giúp các hệ thống AI học thuộc và trả lời một cách máy móc, qua đó làm giảm tính khách quan của kết quả đánh giá.

Google và OpenAI đã đạt được điểm số trên 90% trong bài kiểm tra Đo lường Hiểu biết Ngôn ngữ Đa nhiệm Khổng lồ (MMLU), một tiêu chuẩn đánh giá khả năng hiểu ngôn ngữ của các mô hình AI đã được sử dụng rộng rãi trong bốn năm qua.

Dan Hendrycks, một trong những người tạo ra bài kiểm tra này, đã phát động chiến dịch kêu gọi cộng đồng cùng nhau xây dựng một bộ câu hỏi cực khó, được ông đặt tên là "Bài kiểm trí tuệ nhân tạo cuối cùng". Mục tiêu của dự án này là đặt ra những câu hỏi hóc búa nhất để đánh giá toàn diện khả năng của các hệ thống AI.

Bang xep hang AI anh 2

Người dùng sẽ tương tác trực tiếp với 2 mô hình ngôn ngữ và chọn ra câu trả lời hay hơn.

"Mặc dù một chuẩn đánh giá ban đầu có thể rất khó đối với các LLM, những thế hệ LLM tiếp theo sẽ xuất hiện và đạt được hiệu suất gần như hoàn hảo", Tiến sĩ Colin White, Giám đốc Nghiên cứu tại Abacus.AI, đơn vị phát triển chuẩn đánh giá AI LiveBench, cho biết.

Cách tiếp cận "đối đầu" của Chatbot Arena, mặc dù thú vị, không phải lúc nào cũng đảm bảo tính chính xác và khách quan. Việc đánh giá dựa trên cảm nhận cá nhân khó có thể đo lường được các tiêu chí cụ thể của một chatbot. Do đó, một số nhà nghiên cứu gọi cách tiếp cận này là "đánh giá dựa trên cảm nhận".

Đội ngũ phát triển Chatbot Arena đã rất thẳng thắn trong việc công khai các hạn chế của nền tảng. Để giúp người dùng có cái nhìn khách quan hơn, họ cho phép người dùng tự do loại bỏ những yếu tố chủ quan như độ dài câu trả lời hay định dạng khi đánh giá các mô hình.

Đóng góp cho cộng đồng

Angelopoulos và Chiang đã kêu gọi nhiều nhà nghiên cứu khác để cùng xây dựng một nền tảng tương tự như Wikipedia, nơi cộng đồng có thể cùng nhau đóng góp và phát triển kiến thức về Trí tuệ Nhân tạo. Quan trọng hơn, họ khẳng định rằng dự án này hoàn toàn phi lợi nhuận.

Chatbot Arena cũng đóng vai trò quan trọng trong việc thúc đẩy sự phát triển của cộng đồng AI. Nhờ nền tảng này, người dùng có thể khám phá ra các mô hình ngôn ngữ mới. Điển hình là sự xuất hiện bất ngờ của "im-also-a-good-gpt2-chatbot", sau đó được xác nhận là GPT-4o.

Bang xep hang AI anh 3

Các thành viên của nhóm dự án Chatbot Arena hầu hết là sinh viên đại học. Ảnh: Laura Morton/WSJ.

Theo Chatbot Arena, xAI của Elon Musk, Meta và Google cũng đã thử nghiệm các công nghệ trên trang web trước khi được phát hành rộng rãi.

"Chúng tôi nhận được yêu cầu từ các công ty mỗi ngày”, nhà đồng sáng lập Chiang cho biết.

Vào tháng 10, một mô hình AI từ công ty Trung Quốc có tên “01.AI” đã bất ngờ xuất hiện ở vị trí thứ 6 trên bảng xếp hạng, thu hút sự chú ý đến những tiến bộ của Trung Quốc trong lĩnh vực này.

Kai-Fu Lee, cựu giám đốc điều hành Google và hiện là CEO của 01.AI, đã quảng bá thành tích này trên nền tảng X. Ông cho biết mô hình này đã vượt qua phiên bản đầu tiên của GPT-4o của OpenAI.

Những phản hồi của người dùng trên Chatbot Arena đã trở thành một kho dữ liệu quý giá đối với các nhà phát triển. Angelopoulos và Chiang cho biết họ đã chia sẻ khoảng 20% dữ liệu này, để cộng đồng nghiên cứu có thể tận dụng mà không làm ảnh hưởng đến tính bảo mật và công bằng của nền tảng.

Dùng ChatGPT thế nào để không tạo ra nội dung vô tri

Sự phát triển của AI mở ra nhiều tiềm năng nhưng cũng có không ít mối lo đối với ngành xuất bản, đặc biệt là nhóm tác giả viết sách.

Các tác giả sách cần phải chấp nhận sự vươn lên của AI, sử dụng chúng như một "siêu trợ lý" thay vì chối bỏ trào lưu. Chia sẻ với Tri thức - Znews, nhiều cây viết cho rằng người làm sách vẫn có thể đứng vững trong thời đại AI nếu biết cách tận dụng sức mạnh của trí tuệ nhân tạo.

" />

Ai xếp hạng sức mạnh của ChatGPT, Gemini ?

Thời sự 2025-03-30 05:26:15 74216

Chatbot Arena là bảng xếp hạng AI do chính người dùng bình chọn. Ảnh: Midjourney/THE DECODER.

Cũng như bảng xếp hạng Billboard Hot 100 là thước đo tiêu chuẩn cho độ phổ biến của các sản phẩm âm nhạc,ếphạngsứcmạnhcủtin 24 các chatbot Trí tuệ Nhân tạo (AI) cũng có một “đấu trường” riêng được xây dựng và điều hành bởi hai nghiên cứu sinh mang tên “Chatbot Arena”.

Hai người bạn cùng phòng Anastasios Angelopoulos và Wei-Lin Chiang không ngờ rằng dự án nghiên cứu của họ đã nhanh chóng trở thành bảng xếp hạng được theo dõi nhiều nhất về các hệ thống AI.

Cách mới để đánh giá AI

Ra mắt vào tháng 4/2023, Chatbot Arena nhanh chóng trở thành một hiện tượng khi thu hút hơn 4.700 lượt bình chọn chỉ trong tuần đầu tiên.

Theo truyền thống, hiệu năng của các công nghệ AI được đánh giá qua các bài kiểm tra chuyên sâu về toán học, khoa học và luật pháp. Tuy nhiên, Chatbot Arena cung cấp một phương pháp đánh giá mới, cho phép người dùng trực tiếp so sánh khả năng của các mô hình AI thông qua việc đặt câu hỏi và nhận câu trả lời.

Những đánh giá này được tổng hợp thành một bảng xếp hạng, nơi các tên tuổi lớn của Thung lũng Silicon như OpenAI, Google và Meta Platforms tranh giành ngôi vị cao nhất.

Bang xep hang AI anh 1

Anastasios Angelopoulos (phải) và Wei-Lin Chiang (trái), hai nhà đồng sáng lập Chatbot Arena. Ảnh: Laura Morton/WSJ.

“Mọi người đều đang cố gắng để đứng đầu bảng xếp hạng này, thật tuyệt vời khi một vài sinh viên tập hợp lại và có thể tạo ra tác động to lớn như vậy”, Joseph Spisak, giám đốc quản lý sản phẩm tại Meta Platforms, cho biết.

Khi cuộc đua AI ngày càng “nóng lên”, bất kỳ lợi thế nào so với đối thủ cạnh tranh cũng có thể tạo ra sự khác biệt lớn trong việc thu hút khách hàng và nhân tài. Điều này càng khiến Chatbot Arena thu hút sự chú ý.

Từ khi ra mắt với chỉ 9 mô hình AI, Chatbot Arena đã không ngừng mở rộng, hiện nay đã đánh giá và xếp hạng hơn 170 mô hình khác nhau với hơn hai triệu lượt bình chọn. Nền tảng này cũng cung cấp các bảng xếp hạng chi tiết cho nhiều lĩnh vực như sáng tạo nội dung và lập trình.

Chatbot Claude của Anthropic hiện đứng đầu bảng xếp hạng, sau khi soán ngôi OpenAI vào tháng 3 năm nay.

Đánh giá theo cảm tính

Các nhà nghiên cứu đã nhận thấy rằng các bài kiểm tra học thuật truyền thống đang dần mất đi hiệu lực. Nguyên nhân là do các câu hỏi trong những bài kiểm tra này đã được tích hợp vào các mô hình ngôn ngữ lớn (LLM), giúp các hệ thống AI học thuộc và trả lời một cách máy móc, qua đó làm giảm tính khách quan của kết quả đánh giá.

Google và OpenAI đã đạt được điểm số trên 90% trong bài kiểm tra Đo lường Hiểu biết Ngôn ngữ Đa nhiệm Khổng lồ (MMLU), một tiêu chuẩn đánh giá khả năng hiểu ngôn ngữ của các mô hình AI đã được sử dụng rộng rãi trong bốn năm qua.

Dan Hendrycks, một trong những người tạo ra bài kiểm tra này, đã phát động chiến dịch kêu gọi cộng đồng cùng nhau xây dựng một bộ câu hỏi cực khó, được ông đặt tên là "Bài kiểm trí tuệ nhân tạo cuối cùng". Mục tiêu của dự án này là đặt ra những câu hỏi hóc búa nhất để đánh giá toàn diện khả năng của các hệ thống AI.

Bang xep hang AI anh 2

Người dùng sẽ tương tác trực tiếp với 2 mô hình ngôn ngữ và chọn ra câu trả lời hay hơn.

"Mặc dù một chuẩn đánh giá ban đầu có thể rất khó đối với các LLM, những thế hệ LLM tiếp theo sẽ xuất hiện và đạt được hiệu suất gần như hoàn hảo", Tiến sĩ Colin White, Giám đốc Nghiên cứu tại Abacus.AI, đơn vị phát triển chuẩn đánh giá AI LiveBench, cho biết.

Cách tiếp cận "đối đầu" của Chatbot Arena, mặc dù thú vị, không phải lúc nào cũng đảm bảo tính chính xác và khách quan. Việc đánh giá dựa trên cảm nhận cá nhân khó có thể đo lường được các tiêu chí cụ thể của một chatbot. Do đó, một số nhà nghiên cứu gọi cách tiếp cận này là "đánh giá dựa trên cảm nhận".

Đội ngũ phát triển Chatbot Arena đã rất thẳng thắn trong việc công khai các hạn chế của nền tảng. Để giúp người dùng có cái nhìn khách quan hơn, họ cho phép người dùng tự do loại bỏ những yếu tố chủ quan như độ dài câu trả lời hay định dạng khi đánh giá các mô hình.

Đóng góp cho cộng đồng

Angelopoulos và Chiang đã kêu gọi nhiều nhà nghiên cứu khác để cùng xây dựng một nền tảng tương tự như Wikipedia, nơi cộng đồng có thể cùng nhau đóng góp và phát triển kiến thức về Trí tuệ Nhân tạo. Quan trọng hơn, họ khẳng định rằng dự án này hoàn toàn phi lợi nhuận.

Chatbot Arena cũng đóng vai trò quan trọng trong việc thúc đẩy sự phát triển của cộng đồng AI. Nhờ nền tảng này, người dùng có thể khám phá ra các mô hình ngôn ngữ mới. Điển hình là sự xuất hiện bất ngờ của "im-also-a-good-gpt2-chatbot", sau đó được xác nhận là GPT-4o.

Bang xep hang AI anh 3

Các thành viên của nhóm dự án Chatbot Arena hầu hết là sinh viên đại học. Ảnh: Laura Morton/WSJ.

Theo Chatbot Arena, xAI của Elon Musk, Meta và Google cũng đã thử nghiệm các công nghệ trên trang web trước khi được phát hành rộng rãi.

"Chúng tôi nhận được yêu cầu từ các công ty mỗi ngày”, nhà đồng sáng lập Chiang cho biết.

Vào tháng 10, một mô hình AI từ công ty Trung Quốc có tên “01.AI” đã bất ngờ xuất hiện ở vị trí thứ 6 trên bảng xếp hạng, thu hút sự chú ý đến những tiến bộ của Trung Quốc trong lĩnh vực này.

Kai-Fu Lee, cựu giám đốc điều hành Google và hiện là CEO của 01.AI, đã quảng bá thành tích này trên nền tảng X. Ông cho biết mô hình này đã vượt qua phiên bản đầu tiên của GPT-4o của OpenAI.

Những phản hồi của người dùng trên Chatbot Arena đã trở thành một kho dữ liệu quý giá đối với các nhà phát triển. Angelopoulos và Chiang cho biết họ đã chia sẻ khoảng 20% dữ liệu này, để cộng đồng nghiên cứu có thể tận dụng mà không làm ảnh hưởng đến tính bảo mật và công bằng của nền tảng.

Dùng ChatGPT thế nào để không tạo ra nội dung vô tri

Sự phát triển của AI mở ra nhiều tiềm năng nhưng cũng có không ít mối lo đối với ngành xuất bản, đặc biệt là nhóm tác giả viết sách.

Các tác giả sách cần phải chấp nhận sự vươn lên của AI, sử dụng chúng như một "siêu trợ lý" thay vì chối bỏ trào lưu. Chia sẻ với Tri thức - Znews, nhiều cây viết cho rằng người làm sách vẫn có thể đứng vững trong thời đại AI nếu biết cách tận dụng sức mạnh của trí tuệ nhân tạo.

本文地址:http://mobile.tour-time.com/news/643a699028.html
版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

全站热门

Nhận định, soi kèo Bunyodkor vs Surkhon Termiz, 22h00 ngày 28/3: Tin vào cửa dưới

101 màn 'đòi nợ tình phí' hậu chia tay

Nhận định, soi kèo Shimizu S

{keywords}Một người phụ nữ đi ngang qua một tấm biển có nội dung “Bitcoin được chấp nhận ở đây”. Bitcoin đã được chấp nhận làm phương tiện thanh toán ở El Salvador từ ngày 7/9

Nhưng chỉ một phần nhỏ các doanh nghiệp của quốc gia Trung Mỹ này đã giao dịch bằng Bitcoin. Nguyên nhân là các vấn đề kỹ thuật đã gây khó khăn cho ứng dụng tiền mã hóa, khiến ngay cả những người đã cam kết sử dụng loại tiền tệ này cũng thất vọng.

Adalberto Galvez, 32 tuổi, một công nhân xây dựng, cho biết anh đã bị mất 220 USD khi cố gắng rút tiền mặt từ ví kỹ thuật số Chivo.

Giống như Galvez, hàng chục người Salvador nói với Reuters rằng họ gặp ít nhất một vấn đề với ví Chivo, được đặt tên theo từ địa phương có nghĩa là “tốt”, và rất ít người sử dụng nó hàng ngày.

Từ trước đến nay, anh Galvez đã sử dụng Bitcoin trong một dự án thử nghiệm quy mô nhỏ khác có tên là Bitcoin Beach được triển khai ở thị trấn ven biển El Zonte.

Galvez cho biết anh ta có thể rút tiền từ Bitcoin Beach, nhưng chưa bao giờ có thể rút tiền mặt qua ví Chivo. Anh đã khiếu nại nhưng chưa nhận được phản hồi.

Những người dùng khác cũng đã báo cáo nhà chức trách về những bất thường trong giao dịch qua ví Chivo, cũng như các trường hợp đánh cắp danh tính.

Tổng thống Nayib Bukele đổ lỗi cho việc người dân không thể rút tiền từ ví Chivo là do nhu cầu sử dụng quá cao khiến hệ thống bị quá tải. Chính phủ nước này đang tìm cách đẩy nhanh các giao dịch tiền mã hóa, bởi giống như nhiều nước nghèo khác, một phần năm số gia đình ở El Salvador sống phụ thuộc nguồn kiều hối.

Tổng thống Bukele cho biết đã có 3 triệu người tải xuống ứng dụng ví điện tử Chivo, nhiều hơn khoảng 500 nghìn người so với mục tiêu ban đầu và bằng nửa dân số cả nước. Tháng 9 vừa qua, ông cho biết vẫn đang có 2,1 triệu người dùng đang hoạt động trên ví Chivo.

Theo thống kê của Tổ chức Kinh tế và Phát triển xã hội El Salvador (SFESD), sau một tháng ra mắt, đã có 12% dân số sử dụng ví Chivo.

"Ngay ngày hôm qua thôi, người dân El Salvador vẫn đang nạp nhiều tiền mặt để mua Bitcoin hơn những gì họ đang rút từ máy ATM", Tổng thống Bukele tweet vào thứ Tư.

Tuy nhiên, SFESD đã thăm dò ý kiến của 223 công ty trong các lĩnh vực khác nhau và nhận thấy rằng việc sử dụng Bitcoin về tổng thể vẫn còn thấp, với 93% số công ty được hỏi nói rằng họ vẫn chưa thanh toán bằng Bitcoin.

Ông Leonor Selva thuộc Hiệp hội Doanh nghiệp Tư nhân Quốc gia - một trong số các tổ chức vẫn còn hoài nghi về việc triển khai, cho biết: “Chúng tôi vẫn không chắc chính phủ mong đợi nhận được những lợi ích gì từ việc chấp nhận Bitcoin".

Kiều hối

Chính phủ El Salvador hy vọng rằng 2,5 triệu người Salvador sống ở Hoa Kỳ sẽ gửi tiền cho người thân ở quê nhà qua Chivo.

Cho đến nay, 30 máy ATM Bitcoin để gửi tiền đã được lắp đặt ở Atlanta, Chicago, Houston và Los Angeles. Tổng thống Bukele cho biết khoảng 2 triệu USD đang được gửi qua Chivo hàng ngày.

Juan Moz, một công nhân xây dựng đã sống ở Hoa Kỳ từ năm 2005, gần đây đã chọn Chivo để gửi tiền về cho gia đình mình Anh cho biết gửi tiền qua Chivo giúp anh tiết kiệm được tới 18 USD so với các dịch vụ chuyển tiền truyền thống.

“Tôi chắc chắn sẽ tiếp tục sử dụng nó,” anh nói trong một cuộc phỏng vấn qua điện thoại với hãng tin CNBC từ San Francisco.

Tuy nhiên, phần lớn trong số 6 tỉ USD kiều hối hàng năm của El Salvador (chiếm khoảng một phần tư tổng sản phẩm quốc nội) vẫn là tiền mặt truyền thống do vẫn còn nhiều người cảnh giác với sự biến động của tiền mã hóa.

Tháng trước, El Salvador đã mua 700 Bitcoin. Giá Bitcoin ban đầu giảm mạnh sau khi quốc gia này chính thức chấp thuận tiền mã hóa vào ngày 7/9, nhưng đã tăng mạnh vào cuối tháng 9 để đạt khoảng 54.000 USD/ Bitcoin trong tuần này.

Một số người nói với Reuters rằng họ đã tải xuống ví Chivo và nhận được khoản tiền thưởng bằng Bitcoin trị giá 30 USD mà chính phủ đưa ra khi bắt đầu chương trình.

Khoản tiền thưởng này đủ lớn để mang lại lợi ích cho một số chủ doanh nghiệp nhỏ như Alexander Diaz, người có nhà hàng bán cánh gà rán. Đơn hàng cánh gà đã tăng đột biến trong thời gian qua.

Diaz cho biết: “Hầu hết những người nhận được khoản tiền thưởng đều muốn kiểm tra xem nó có thể chi tiêu như thế nào, vì vậy một số khách hàng đã thanh toán cho chúng tôi bằng Bitcoin”. Diaz cho biết thêm khoảng 20% ​​khách hàng của anh ấy hiện sử dụng tiền điện tử.

“Chivo đã mang lại lợi ích cho các doanh nghiệp nhỏ vì nó làm cho phương thức thanh toán dễ dàng hơn cho khách hàng", anh Diaz nói.

Theo Viettimes

Nhà đầu tư Micheal Burry xem tiền số chó Shiba là vô nghĩa

Nhà đầu tư Micheal Burry xem tiền số chó Shiba là vô nghĩa

Nhà đầu tư Micheal Burry cho rằng đồng tiền mã hóa meme nổi tiếng Shiba Inu là vô nghĩa, khó tăng trưởng vì nguồn cung của loại coin này đã vượt hơn 1 triệu tỷ đồng.

">

El Salvador ra sao sau một tháng công nhận Bitcoin là tiền tệ lưu hành chính thức?

友情链接