GPT và các mô hình AI mạnh mẽ vẫn phải ‘bó tay’ trước bài kiểm tra này
TheàcácmôhìnhAImạnhmẽvẫnphảibótaytrướcbàikiểmtranàlịch âm vạn niêno đó, ngay cả cấu hình mô hình trí tuệ nhân tạo hoạt động tốt nhất mà họ đã thử nghiệm như GPT-4-Turbo của OpenAI, vẫn chỉ đạt tỷ lệ trả lời đúng 79% dù được đọc toàn bộ hồ sơ và thường xuyên gặp tình trạng “ảo giác” những số liệu hay sự kiện không có thật.
“Loại tỷ lệ hiệu suất đó hoàn toàn không thể chấp nhận được”, Anand Kannappan, người đồng sáng lập Patronus AI cho biết. “Tỷ lệ trả lời đúng phải cao hơn nhiều để có thể tự động hoá và sẵn sàng sản xuất”.
Phát hiện này nêu bật một số thách thức mà các mô hình AI phải đối mặt khi các công ty lớn, đặc biệt trong các ngành được quản lý chặt chẽ như tài chính, tìm cách kết hợp công nghệ tiên tiến vào hoạt động của họ, cho dù là dịch vụ khách hàng hay nghiên cứu.
“Ảo giác” số liệu tài chính
Khả năng trích xuất các con số quan trọng một cách nhanh chóng và thực hiện phân tích báo cáo tài chính được coi là một trong những ứng dụng hứa hẹn nhất cho chatbot kể từ khi ChatGPT được phát hành vào cuối năm ngoái.
Hồ sơ của SEC chứa dữ liệu quan trọng và nếu bot có thể tóm tắt chính xác hoặc trả lời nhanh các câu hỏi về nội dung trong đó, nó có thể giúp người dùng có lợi thế trong ngành tài chính cạnh tranh.

Trong năm qua, Bloomberg LP đã phát triển mô hình AI của riêng mình cho dữ liệu tài chính, các giáo sư trường kinh doanh đã nghiên cứu xem liệu ChatGPT có thể phân tích các tiêu đề tài chính hay không.
Trong khi đó, JPMorgan cũng phát triển một công cụ đầu tư tự động được hỗ trợ bởi AI. Một dự báo gần đây của McKinsey cho biết AI tạo sinh có thể thúc đẩy ngành ngân hàng thêm hàng nghìn tỷ đô la mỗi năm.
Song, chặng đường này còn ở khá xa. Khi Microsoft lần đầu tiên ra mắt Bing Chat tích hợp GPT của OpenAI, họ đã sử dụng chatbot này để tóm tắt nhanh thông cáo báo chí về thu nhập. Những người quan sát nhanh chóng nhận ra những con số mà AI trả lời bị sai lệch, hay thậm chí bịa đặt.
Cùng dữ liệu, đáp án khác nhau
Một phần của thách thức khi kết hợp LLM vào các sản phẩm thực tế là thuật toán không mang tính xác định, nghĩa là chúng không được đảm bảo sẽ trả ra cùng một kết quả dù có đầu vào giống nhau. Đồng nghĩa các công ty cần thực hiện kiểm tra nghiêm ngặt hơn để đảm bảo rằng AI đang hoạt động chính xác, không lạc đề và cung cấp kết quả đáng tin cậy.
Patronus AI xây dựng bộ gồm hơn 10.000 câu hỏi và câu trả lời được rút ra từ hồ sơ của SEC từ các công ty giao dịch đại chúng lớn, được gọi là FinanceBench. Tập dữ liệu bao gồm các câu trả lời chính xác cũng như vị trí chính xác trong bất kỳ tệp cụ thể nào để tìm thấy chúng.
Không phải tất cả các câu trả lời đều có thể được lấy trực tiếp từ văn bản và một số câu hỏi yêu cầu tính toán hoặc lý luận nhẹ nhàng.
Tham gia bài kiểm tra tập con 150 câu hỏi có bốn mô hình LLM: GPT-4 và GPT-4-Turbo của OpenAI, Claude 2 của Anthropic và Llama 2 của Meta.
Kết quả, GPT-4-Turbo khi được cấp quyền vào hồ sơ cơ bản của SEC, chỉ đạt tỷ lệ chính xác là 85% (so với 88% trả lời sai khi không được truy cập dữ liệu), dù đã được con người trỏ chuột đến chính xác đoạn văn bản để AI tìm câu trả lời.
Llama 2, một mô hình AI nguồn mở do Meta phát triển, có số “ảo giác” cao nhất, trả lời sai tới 70% trường hợp và chỉ trả lời đúng 19% khi được cấp quyền truy cập vào một phần của các tài liệu cơ bản.
Claude 2 của Anthropic hoạt động tốt khi được đưa ra "bối cảnh dài", trong đó gần như toàn bộ hồ sơ SEC có liên quan được đưa vào cùng với câu hỏi. Nó có thể trả lời 75% số câu hỏi được đặt ra, trả lời sai 21% và từ chối trả lời 3%. GPT-4-Turbo cũng hoạt động tốt với ngữ cảnh dài, trả lời đúng 79% câu hỏi và trả lời sai 17% trong số đó.
(Theo CNBC)

Cuộc chạy đua đầu tư vào các công ty khởi nghiệp AI của các Big Tech
Công nghệ AI ra đời đã làm rung chuyển thế giới công nghệ, tuy nhiên có một điều vẫn không thay đổi - Big Tech vẫn nắm giữ quyền lực tuyệt đối.-
Siêu máy tính dự đoán Nottingham vs MU, 2h00 ngày 2/47 điều cần làm để bảo vệ mắt cho những ai thường xuyên dùng máy tính, smartphonePhó Thủ tướng yêu cầu “nội soi” xe nhập khẩu thuế 0%Volvo XC60 gặp lỗi, hàng trăm nghìn chiếc bị triệu hồiNhận định, soi kèo Bulleen Lions vs Bentleigh Greens, 16h30 ngày 31/3: Củng cố ngôi đầuCocobay tung siêu phẩm ‘Party Condotel’ đậm chất IbizaTuyển Pháp World Cup 2018: Đồng đội vào bóng ác ý, Mbappe lăn đùng chấn thươngSống xanh an lành ở Eco DreamKèo vàng bóng đá RB Bragantino vs Ceara, 06h00 ngày 1/4: Khó tin chủ nhàNhận định kèo bóng đá Argentina vs Iceland
下一篇:Nhận định, soi kèo Esenler Erokspor vs MKE Ankaragucu, 21h00 ngày 31/3: Trả nợ lượt đi
- ·Nhận định, soi kèo Getafe vs Villarreal, 19h00 ngày 30/3: Vị thế lung lay
- ·Em gái cũng bị viêm phụ khoa
- ·IPhone 11 Pro và 11 Pro Max vì sao không còn thiết kế mỏng nhẹ?
- ·Báo cáo kinh doanh của tứ đại gia công nghệ Mỹ có gì đáng chú ý?
- ·Soi kèo góc Getafe vs Villarreal, 19h00 ngày 30/3
- ·Link xem trực tiếp Thụy Điển vs Hàn Quốc, bảng F World Cup 2018
- ·Link xem trực tiếp Nga vs Ai Cập, bảng A World Cup 2018
- ·22.000 người dân được tặng miễn phí bảo hiểm
- ·Nhận định, soi kèo Auxerre vs Montpellier, 22h15 ngày 30/3: Chìm trong khủng hoảng
- ·Gắn mào taxi cho xe công nghệ sẽ cào bằng mọi thứ về 'thời kỳ đồ đá'
- ·Lối đi nào cho tường phí báo chí thu phí?
- ·One Piece: Kaido tự tử... rồi đánh bại liên minh Kid và những uẩn khúc phía sau
- ·Nhận định, soi kèo Real Madrid vs Leganes, 3h00 ngày 30/3: Nhọc nhằn vượt ải
- ·Thiết kế độc giúp nhà 35m2 vẫn ngập ánh sáng
- ·EU sắp trình đạo luật ‘cách mạng’ nhằm vào Facebook, Google
- ·Truyện Overlord
- ·Nhận định, soi kèo Arsenal vs Fulham, 1h45 ngày 2/4: Đối thủ khó nhằn
- ·Subaru đóng cửa nhà máy tại Nhật: Thị trường Việt Nam có bị ảnh hưởng?
- ·Galaxy Fold đầu tiên về VN, cửa hàng hét giá 99 triệu đồng
- ·Nhận định bóng đá Brazil vs Thụy Sĩ, 1h ngày 18
- ·Nhận định, soi kèo Auxerre vs Montpellier, 22h15 ngày 30/3: Chìm trong khủng hoảng
- ·Lịch thi đấu bóng đá hôm nay 6/6
- ·Bất động sản Thủ Thừa
- ·‘Ái nữ Huawei’ giành thắng lợi nhỏ trong phiên tranh tụng dẫn độ
- ·Nhận định, soi kèo Lazio vs Torino, 1h45 ngày 1/4: Khó cho chủ nhà
- ·Siêu độc dàn 9 xe biển ngũ quý từ 1
- ·Kèo vàng bóng đá Dortmund vs Mainz, 22h30 ngày 30/3: Thất vọng chủ nhà
- ·Clip bất ngờ bị đập chai vào đầu khi ngồi trong nhà hàng nóng nhất mạng xã hội
- ·Kèo Iran vs Maroc: Mèo Achiles dự đoán Iran thắng, World Cup 2018
- ·Maybach 62S, em gái Kim Jong
- ·Nhận định, soi kèo Henan FC vs Qingdao West Coast, 18h00 ngày 1/4: Bất phân thắng bại
- ·7 mẫu xe Pre được yêu thích nhất của VinFast
- ·Dừng đèn đỏ cũng thiệt mạng, xe máy quá yếu thế
- ·Kingdom 101
- ·Nhận định, soi kèo Real Madrid vs Leganes, 3h00 ngày 30/3: Nhọc nhằn vượt ải
- ·Lịch thi đấu World Cup 2018 hôm nay 19/6