Chế độ giọng nói nâng cao của ChatGPT (AVM) hiện đã có chức năng video và chia sẻ màn hình! Chức năng này sẽ được triển khai vào thứ Năm tới cho các thuê bao ChatGPT Plus và Pro trả phí, trong khi khách hàng doanh nghiệp và giáo dục sẽ nhận được chức năng này vào tháng Giêng.
ChatGPT hiện tại có thể nhìn
Trong ngày thứ sáu của sự kiện ’12 Days of OpenAI’, công ty khởi nghiệp AI này đã thông báo rằng ChatGPT có thể nhận diện các đối tượng được camera chụp hoặc hiển thị trên màn hình thiết bị, và phản hồi thông qua chức năng chế độ giọng nói nâng cao của nó. Người dùng có thể trò chuyện với ChatGPT bằng camera trên điện thoại, mô hình sẽ ‘nhìn thấy’ những gì bạn thấy.
Trước đó, OpenAI đã thông báo về chức năng này khi phát hành mô hình GPT-4o vào tháng Năm. Công ty khởi nghiệp này cho biết AVM được hỗ trợ bởi mô hình đa chế độ 4o gốc của OpenAI, điều này có nghĩa là nó có thể xử lý đầu vào âm thanh và phản hồi theo cách trò chuyện tự nhiên.
Chế độ video của OpenAI cảm giác như một cuộc gọi video, vì ChatGPT sẽ phản hồi theo thời gian thực đối với các nội dung hiển thị trong video của người dùng. Nó có thể nhìn thấy những thứ xung quanh người dùng, nhận diện đối tượng, thậm chí nhớ tên của những người đã tự giới thiệu. Trong buổi phát trực tiếp, Giám đốc sản phẩm (CPO) của công ty Kevin Weil và các thành viên khác trong nhóm đã trình diễn cách ChatGPT hỗ trợ làm cà phê vệ sinh. Họ đã hướng dẫn quy trình pha cà phê thông qua việc hướng camera vào hành động pha cà phê, chứng minh rằng nó hiểu nguyên lý hoạt động của máy pha cà phê.
Ngoài ra, ChatGPT còn có thể nhận diện nội dung trên màn hình. Trong buổi trình diễn, các nhà nghiên cứu của OpenAI đã kích hoạt chia sẻ màn hình và sau đó mở ứng dụng nhắn tin, yêu cầu ChatGPT giúp trả lời các bức ảnh nhận được qua tin nhắn văn bản.
Thông tin được mong chờ từ lâu này được công bố một ngày sau khi Google phát hành mô hình flagship thế hệ tiếp theo Gemini 2.0. Gemini 2.0 mới cũng có thể xử lý đầu vào hình ảnh và âm thanh, và có nhiều chức năng đại lý hơn, điều này có nghĩa là nó có thể thực hiện các nhiệm vụ đa bước thay mặt cho người dùng. Chức năng đại lý của Gemini 2.0 hiện có ba nguyên mẫu nghiên cứu với các tên gọi khác nhau: Dự án Astra cho trợ lý AI tổng quát, Dự án Mariner cho các nhiệm vụ AI cụ thể, và Dự án Jules cho các nhà phát triển.
Ngoài ra, tuần trước, Microsoft cũng đã phát hành phiên bản xem trước của Copilot Vision, cho phép các thuê bao Pro mở trò chuyện Copilot khi duyệt web. Copilot Vision có thể xem các bức ảnh trên màn hình, thậm chí có thể giúp chơi trò chơi đoán bản đồ. Dự án Astra của Google cũng có thể đọc trình duyệt theo cách tương tự.
OpenAI cũng không chịu kém cạnh, buổi trình diễn của họ cho thấy chế độ thị giác của ChatGPT có thể nhận diện chính xác các đối tượng, thậm chí là có thể dừng lại, trong đó cũng bao gồm tùy chọn giọng nói của ông già Noel trong chế độ giọng nói, với giọng trầm và vui vẻ, cùng nhiều ‘ho-ho-hos’. Người dùng có thể trò chuyện với ông già Noel phiên bản OpenAI bằng cách nhấp vào biểu tượng bông tuyết trong ChatGPT. Các phương tiện truyền thông đã đùa rằng hiện vẫn chưa rõ liệu ông già Noel thật sự đã góp tiếng nói của mình cho AI hay OpenAI đã sử dụng giọng nói của ông mà không có sự đồng ý trước.
Trước đó, chế độ giọng nói nâng cao có chức năng thị giác đã bị trì hoãn nhiều lần. Được báo cáo rằng một phần nguyên nhân là OpenAI đã công bố chức năng này sớm trước khi sẵn sàng. Vào tháng Tư năm nay, OpenAI đã cam kết sẽ phát hành chế độ giọng nói nâng cao cho người dùng trong ‘vài tuần’. Vài tháng sau, công ty vẫn cho biết cần thêm thời gian.
Tuyên bố miễn trừ trách nhiệm. Bài viết này không chứa lời khuyên hoặc khuyến nghị đầu tư của coin4vn . Chúng tôi chỉ cung cấp dữ liệu nhằm mục đích làm phong phú thêm thông tin cho người đọc. Mọi động thái đầu tư và giao dịch đều tiềm ẩn rủi ro và độc giả nên tự nghiên cứu khi đưa ra quyết định. Tất cả các hoạt động mua, bán và đầu tư tài sản tiền điện tử là trách nhiệm của người đọc.