Saat Amazon menginvestasikan $4 miliar pada pesaing potensial OpenAI, Anthropic, sehingga memiliki saham mayoritas di perusahaan AI tersebut, OpenAI menghadirkan beberapa pembaruan besar pada ChatGPT – layanan andalannya. Perusahaan AI berbasis teks yang paling populer saat ini kini memungkinkan pengguna berinteraksi dengan bot bertenaga AI melalui perintah suara dan perintah gambar. Pembaruan signifikan ini akan diluncurkan kepada pelanggan ChatGPT dalam dua minggu ke depan, dan aksesibilitas akan diperluas ke semua pengguna segera setelahnya.
Seiring dengan semakin populernya interaksi suara dengan chatbot yang didukung AI, OpenAI kini ikut-ikutan dan tidak ingin ketinggalan meskipun jumlah pengguna yang lebih memilih perintah suara daripada teks masih belum jelas. Pengguna cukup mengetuk tombol, mengucapkan pertanyaan mereka, dan ChatGPT memproses masukan suara, lalu mengembalikan respons lisan. Fitur seperti yang dimiliki Bard milik Google ini menurut OpenAI menjanjikan respons yang lebih akurat sebagai hasil dari peningkatan teknologi.
OpenAI memanfaatkan model Whisper yang kuat untuk memfasilitasi konversi ucapan ke teks. Selain itu, perusahaan juga memperkenalkan model text-to-speech baru yang mampu menghasilkan audio mirip manusia hanya dari teks dan sampel audio singkat. Pengguna akan memiliki keleluasaan untuk memilih dari lima pilihan suara. Selain ChatGPT, kolaborasi OpenAI dengan Spotify untuk terjemahan podcast menunjukkan potensi suara sintetis yang lebih luas.
ChatGPT sekarang dapat melihat, mendengar, dan berbicara. Diluncurkan dalam dua minggu ke depan, pengguna Plus akan dapat melakukan percakapan suara dengan ChatGPT (iOS & Android) dan menyertakan gambar dalam percakapan (semua platform). pic.twitter.com/paG0hMshXb
— OpenAI (@OpenAI) 25 September 2023
Namun, OpenAI menyadari adanya risiko baru yang menyertai kemampuan ini, seperti peniruan identitas tokoh masyarakat dan potensi aktivitas penipuan. Sebagai tindakan pencegahan, penggunaan model ini akan dikontrol secara ketat dan dibatasi pada skenario dan kemitraan tertentu.
Aspek interaksi gambar berfungsi mirip dengan Google Lens. Pengguna dapat mengambil gambar subjeknya, dan ChatGPT akan menganalisis gambar tersebut untuk memberikan tanggapan yang relevan. Anda dapat memperjelas pertanyaan Anda lebih lanjut dengan memanfaatkan alat menggambar aplikasi atau dengan berbicara dan mengetik pertanyaan yang menyertainya. Pendekatan ini mendukung interaksi dinamis dan berulang, meminimalkan kebutuhan pencarian berulang, selaras dengan konsep pencarian multimodal Google.
Untuk memastikan penggunaan yang bertanggung jawab, OpenAI sengaja membatasi kemampuan ChatGPT untuk menganalisis dan memberikan pernyataan langsung tentang individu, baik untuk menjaga privasi dan menjaga akurasi.
Dengan pembaruan ini, OpenAI ingin melanjutkan dominasinya di bidang AI berbasis teks dan juga tidak ingin ketinggalan dalam perlombaan perintah suara. Interaksi gambar dan suara dapat dengan mudah menjadi hal yang kompleks bahkan untuk platform besar seperti ChatGPT dan basis pengguna yang terus bertambah, hal ini hanya akan menjadi rumit untuk dikelola. Untung saja fitur ini untuk pengguna Plus dan Perusahaan untuk saat ini. Saya tidak melihat mereka memperluas ini ke tingkat gratis dalam waktu dekat, tetapi sekali lagi, mari kita lihat apa yang dikatakan kompetisi beberapa bulan dari sekarang.