Mengambil risiko: Skeptisisme saya tentang nilai ilmiah GPT
OPINION

Mengambil risiko: Skeptisisme saya tentang nilai ilmiah GPT

Baru-baru ini saya mengambil risiko, mengatakan – bertentangan dengan filosofi sekuler yang sedang tren – bahwa kita semua berada di muka bumi ini untuk suatu tujuan, entah kita mengetahuinya atau tidak.

Untuk minggu kedua berturut-turut, saya memanjat pohon itu lagi dan akan mengungkapkan pendapat yang berbeda dari kebanyakan orang. Orang yang akan saya beri jawaban tidak kurang dari redaktur pelaksana surat kabar ini, Batuhan Takış, dan artikel terbarunya, “ChatGPT dan saya menulis artikel ini.” (Jika kita berada di platform media sosial, saya akan menghiasi kalimat ini dengan banyak wajah tersenyum.)

Tidak, sebenarnya tidak ada yang salah dengan artikel Pak Takış; justru sebaliknya Anda belajar banyak darinya. Saya tidak ingin memasukkan ide yang salah ke kepala pembaca kami yang akan mempresentasikan tesis, atau laporan proyek jangka di kelas mereka akhir-akhir ini, tetapi artikel tersebut mengajarkan Anda cara menggunakan situs web ChatGPT untuk menulis dengan sempurna. tulisan dengan mengajukan “pertanyaan yang sama beberapa kali” dan menyelami paragrafnya dan bertanya lagi; “kecerdasan buatan” (AI) di belakang “Model Bahasa untuk Dialog” meningkatkan gayanya dan menghasilkan artikel 307 kata tentang kebenaran politik, membatalkan budaya, dan media baru dalam waktu singkat.

Tuan Takış tidak mengungkapkan keputusan akhirnya tentang keberhasilan atau kegagalan AI dalam menulis artikel; dia hanya menyajikan produk akhir yang bahkan diberi judul oleh ChatGPT: “Menavigasi kompleksitas kebenaran politik dan membatalkan budaya di era media sosial dan internet.” Saya juga tidak. Anda mungkin menemukan potongan pendek ini dapat diterima sebagai tulisan pengantar tentang subjek, atau mungkin terdengar seperti daftar definisi konsep yang terlalu banyak.

Gagasan yang akan saya ungkapkan adalah bahwa tidak ada yang namanya kecerdasan buatan, tetapi ada pemrogram yang sangat cerdas yang mungkin tidak populer bagi sebagian orang. Saya bukan seorang Luddite yang menentang teknologi baru dan cara kerja baru; justru sebaliknya, saya sangat menyukai teknologi baru dan orang-orang yang terus menemukan cara baru untuk memanfaatkannya. Saya telah mendukung perintisan perluasan pendidikan komputer sejak hari “komputer pribadi” menjadi alat baru kami untuk otomatisasi kantor. Saya akan membeli kendaraan otonom pertama yang akan ditawarkan TOGG, pembuat mobil lokal dan nasional di Türkiye! Saya sendiri (yah, adalah) seorang programmer yang rajin, setelah secara pribadi menyumbangkan ribuan baris kode ke basis kode microblogging World Wide Web Consortium (W3C), yang kemudian ternyata menjadi dasar dari apa yang kita sebut hari ini “platform sosial,” seperti Twitter, Instagram, Facebook, Pinterest dan sebagainya.

Jadi, ketika saya mengatakan ada pemrogram yang sangat cerdas di luar sana yang dapat “melatih model bahasa” untuk dialog menggunakan miliaran “token”, saya tahu apa yang saya bicarakan. Anda mungkin tidak setuju, tentu saja, tetapi izinkan saya menjelaskan mengapa saya bersedia menantang kebenaran universal baru tentang kemanusiaan, dengan mengatakan tidak ada kecerdasan buatan selain pemrogram cerdas dan algoritme cerdas mereka.

Ngomong-ngomong, tahukah Anda bahwa orang yang menghidupkan istilah “algoritma” adalah ilmuwan Turki: Muhammad ibn Musa al-Khawarizmi? Dia adalah bapak aljabar, dan beberapa sumber mengklaim bahwa dia adalah seorang polymath Persia.

Pertanyaan pertama

Lalu, pertanyaan pertama: Apa itu model bahasa, dan bagaimana cara membuat model? Model bahasa adalah distribusi probabilitas atas urutan kata. Kata-kata “I am having a cup of…” dapat diikuti dengan “teh” jika Anda berbicara tentang orang Turki atau “kopi” jika kata lain dalam “token” tersebut menunjukkan bahwa Anda orang Amerika.

Ada lebih dari lima model yang berguna untuk menghasilkan probabilitas yang dapat membuat urutan kata dapat diterima oleh pembaca reguler bahasa tersebut. Model bahasa menghasilkan probabilitas dengan melatih sumber daya bahasa yang terdiri dari kumpulan teks yang besar dan terstruktur. Saat ini, superkomputer cepat modern dapat melakukan analisis statistik dan pengujian hipotesis, memeriksa kejadian atau memvalidasi aturan linguistik dalam wilayah bahasa tertentu.

Lima belas tahun yang lalu, sepasang ilmuwan komputer muda mengunjungi agen komunikasi AS tempat saya dulu bekerja dan meminta kami menyediakan teks asli dan terjemahan yang kami hasilkan. Agensi biasanya menghasilkan setidaknya 10.000 baris berita harian dan diterjemahkan ke dalam sekitar 50 bahasa setiap hari. Orang-orang itu milik apa yang sekarang kita kenal sebagai Google Terjemahan. Bukan hanya kami, tetapi BBC, Deutsche Welle, Radio Prancis, Radiotelevisi Espanola, TASS Rusia dan agensi Sputnik, Radio dan Televisi Turki, dan beberapa penyiar internasional lainnya menyediakan teks mereka kepada Google. Tambahkan semua perusahaan terjemahan, pengembang ensiklopedia, dan penerbit buku terkenal ke dalamnya, dan bayangkan besarnya data tekstual yang dikumpulkan oleh Google. Tidak hanya Google, tentu saja menambahkan Microsoft dan ribuan pengembang open-source juga.

Google dan yang lainnya menggunakan data tersebut untuk mengembangkan algoritme terjemahan mereka sendiri, dan mereka mengubahnya menjadi pengembang model sumber terbuka yang mengerjakan “transformator pra-terlatih generatif” mereka untuk membuat model bahasa yang menghasilkan teks mirip manusia.

ChatGPT, “model” yang digunakan redaktur pelaksana kami Batuhan Takış sebagai rekan penulis artikelnya baru-baru ini, didasarkan pada model bahasa yang dirilis pada tahun 2020 yang dikatakan menggunakan “pembelajaran mendalam”: Anda memberikan teks awal sebagai prompt, itu menghasilkan teks yang melanjutkan prompt. Secara teknis, ini adalah jaringan transformator khusus dekoder dengan konteks sepanjang 2.048 token yang menggunakan ukuran 175 miliar parameter yang belum pernah terjadi sebelumnya, membutuhkan 800GB untuk menyimpan.

Dalam ilmu komputer, analisis leksikal (lexing atau tokenisasi) adalah proses mengubah urutan karakter (seperti dalam program komputer atau halaman web) menjadi urutan token leksikal (string dengan makna yang ditetapkan dan dengan demikian diidentifikasi). Untuk melakukan analisis leksikal, Anda memindai istilah, kemudian menggabungkannya dengan apa yang disebut parser, yang bersama-sama menganalisis sintaks bahasa, halaman web, dan sebagainya. Itulah yang dilakukan mesin pencari web biasa saat Anda memasukkan istilah dan menekan tombol kembali pada keyboard saat mencari sesuatu. Semakin lama “token” yang Anda masukkan, semakin lama waktu yang dibutuhkan untuk mencari tetapi semakin akurat hasilnya.

Ada kumpulan data terkenal yang tersedia untuk generator model dan pengembang algoritme saat ini. Jika Anda menggunakan ChatGPT, Anda dapat menggunakan Common Crawl dengan 410 miliar token, WebText2 dengan 19 miliar token, Books1 dengan 12 miliar token, 55 miliar token Books2, dan Wikipedia dengan 3 miliar token. (Dan menurut Anda Wikipedia adalah yang terbaik!)

Semakin besar kumpulan data token dan semakin cepat komputer yang Anda miliki, semakin mirip teks yang Anda kembalikan ke prompt yang dimasukkan pengguna.

ChatGPT menjawab pertanyaan lanjutan (ingat, Tuan Takış mengatakan dia memasukkan pertanyaan baru, dia menanyakan pertanyaan yang sama berulang kali), meskipun terkadang ada kesalahan, biasanya mengembalikan kalimat yang lebih dapat diterima karena mencari dengan lebih banyak token. Mereka menyebutnya “pembelajaran mendalam”, tetapi tidak ada proses pembelajaran di sini: Ini hanya Googling kumpulan data yang lebih besar.

ChatGPT tidak ‘menulis’ apapun

ChatGPT juga tidak “menulis” apa pun! Itu hanya menyatukan hal-hal yang sudah ditulis. Di sekolah, kami memiliki situs web utilitas untuk memeriksa pekerjaan rumah siswa jika ada plagiarisme yang signifikan di dalamnya. Ketika saya menjalankan artikel ChatGPT Tuan Takış di salah satunya, tidak ditemukan masalah yang berarti. Tetapi ketika Anda mencari setiap kalimat yang ada, Anda melihat bahwa semua teks telah diindeks sebelumnya oleh Google karena ChatGPT menggunakan indeks yang sama dengan yang digunakan Google.

Ada beberapa model lain yang saya uji dengan input awal Pak Takış; InstructGPT, misalnya, menghasilkan struktur serupa. Karena saya tidak dapat mengulangi pertanyaan lanjutannya, saya tidak dapat menghasilkan teks yang tepat, tetapi saya kira itu mungkin jika Anda memberikan petunjuk yang sama.

Karena tidak ada hal yang tidak terucapkan di bawah matahari, tidak ada yang baru jika dicari di kumpulan data yang sama!

Hal ini membawa kita pada bahaya yang diperingatkan redaktur pelaksana saya: kematian penulis manusia. Ya, penulis telah meninggal sejak tahun 1967 ketika kritikus dan ahli teori sastra Prancis Roland Barthes menyatakan dalam esainya yang terkenal “La mort de l’auteur.” Tapi Barthes dan Takış berbicara tentang kematian yang berbeda di sini. Barthes mengatakan tidak seperti kritik sastra tradisional, kita tidak dapat mengandalkan niat seorang penulis untuk secara definitif menjelaskan “makna akhir” dari sebuah teks; Takış khawatir komputer akan segera menulis teks, bukan individu yang sehat dan sehat.

Ada cara untuk mengetahui apakah sebuah teks diproduksi oleh mesin belaka atau oleh siswa Anda seperti yang baru-baru ini dipelajari oleh Universitas Negeri Rusia untuk Kemanusiaan (RGGU). Seorang siswa berhasil mempresentasikan tesis diploma yang ditulis oleh ChatGPT.

Jika mahasiswa pascasarjana “JustA” (@biblikz) tidak melakukannya Twitter untuk berbagi bagaimana dia menipu sekolahnya menggunakan ChatGPT untuk menulis tesis diploma tentang manajemen, mungkin tidak ada yang menyadarinya. Seperti yang Anda lihat pada contoh Takış, program, AI atau bukan AI, dapat menghasilkan teks yang koheren.

Universitas Rusia kini telah membatasi akses ke ChatGPT dan meminta Kementerian Pendidikan Rusia untuk melarangnya sama sekali di Federasi Rusia.

Noam Chomsky, seorang ahli bahasa dan ilmuwan kognitif Amerika, kadang-kadang disebut “bapak linguistik modern,” mengungkapkan keraguannya tentang nilai ilmiah GPT-3. Dia berkata dalam sebuah program televisi: “Ini bukan model bahasa. Ini berfungsi dengan baik untuk bahasa yang tidak mungkin seperti untuk bahasa yang sebenarnya. Dia pikir itu berguna untuk beberapa tujuan, tetapi dia berkata, “itu tidak memberi tahu kita tentang bahasa atau kognisi secara umum.”

Kepala Lab AI Facebook, Jerome Pesenti, mengatakan GPT-3 “tidak aman”, menunjuk ke bahasa seksis, rasis, dan bias dan negatif lainnya yang dihasilkan oleh sistem ketika diminta untuk membahas orang Yahudi, wanita, orang kulit hitam, dan Holocaust. .

Catatan terakhir untuk redaktur pelaksana saya yang terkasih: Siapkan gaji, Anda belum akan menggoyahkan penulis Anda!

Singapore Pools sekarang adalah penghasil dt sgp paling akurat. Data Sydney diperoleh dalam undian segera bersama langkah mengundi dengan bola jatuh. Bola jatuh SGP sanggup diamati langsung di web situs Singaporepools sepanjang pengundian. Pukul 17:45 WIB togel SGP terupdate. DT sgp asli sekarang dapat diamati terhadap hari senin, rabu, kamis, sabtu dan minggu.

Singapore Pools adalah penyedia resmi information Singapore. Tentu saja, prospek untuk memodifikasi sydney togel kecuali negara itu menjadi tuan rumah pertandingan kecil. Togel Singapore Pools hari ini adalah Togel Online yang merupakan permainan yang amat menguntungkan.

Permainan togel singapore sanggup terlampau untungkan bagi para pemain togel yang bermain secara online. Togel di Singapore adalah permainan yang dimainkan tiap-tiap hari. Pada hari Selasa dan Jumat, pasar akan ditutup. data sgp terlampau menguntungkan karena hanya mengfungsikan empat angka. Jika Anda mengfungsikan angka empat digit, Anda punyai peluang lebih tinggi untuk menang. Taruhan Togel Singapore, tidak layaknya Singapore Pools, bermain game gunakan angka 4 digit daripada angka 6 digit.

Anda tidak diharuskan untuk memperkirakan angka 6 digit, yang lebih sulit. Jika Anda bermain togel online 4d, Anda bisa memainkan pasar Singapore bersama lebih ringan dan menguntungkan. Dengan permainan Togel SGP, pemain togel sekarang bisa beroleh penghasilan lebih konsisten.