What we learned from 5 million books

Ladies and gentlemen, a picture is not worth a thousand words. We found some pictures that are worth 500 billion words.” (Erez Lieberman Aiden)

Erez Lieberman Aiden: Semua orang tahu sebuah gambar mengandung seribu kata. Tapi kami di Harvard ingin tahu apakah itu memang benar. (Suara tawa) Jadi kami mengumpulkan tim ahli, mulai dari Harvard, MIT, The American Heritage Dictionary, The Encyclopedia Britannica hingga sponsor kami, Google. Kami memikirkan hal ini selama empat tahun. Kami sampai pada kesimpulan yang mengejutkan. Hadirin yang terhormat, sebuah gambar tidak mengandung seribu kata. Bahkan, kami menemukan beberapa gambar yang mengandung 500 miliar kata.

Jean-Baptiste Michel: Bagaimana kami bisa sampai pada kesimpulan ini? Saya dan Erez berpikir tentang cara mendapatkan gambaran besar budaya manusia dan sejarah manusia: berubah seiring waktu. Ada banyak buku yang telah ditulis selama bertahun-tahun ini. Jadi kami berpikir, cara terbaik untuk belajar adalah dengan membaca semua jutaan buku ini. Tentu saja, kalau ada ukuran seberapa keren hal ini, rankingnya pasti sangat tinggi. Masalahnya ada sumbu-X untuk itu, yaitu sumbu kepraktisan, yang sangat-sangat rendah.

Orang-orang cenderung menggunakan pendekatan alternatif, mengambil beberapa buku dan membacanya dengan teliti. Ini sangat praktis tapi tidak keren. Yang ingin kita lakukan adalah masuk ke sisi yang keren tapi juga praktis. Ternyata ada sebuah perusahaan di seberang sungai yang bernama Google yang memulai proyek digitalisasinya beberapa tahun lalu yang mungkin bisa mewujudkan pendekatan ini. Mereka mendigitalkan jutaan buku. Jadi artinya, seseorang bisa menggunakan metode komputasional untuk membaca semua buku dengan satu klik. Itu sangat praktis dan mengagumkan.

ELA: Mari kita bahas sedikit dari mana asal buku-buku itu. Sejak dulu, selalu ada yang namanya penulis. Penulis-penulis ini berjuang menulis buku. Ini menjadi jauh lebih mudah ketika mesin cetak muncul beberapa abad yang lalu. Sejak itu, penulis telah melalui dalam 129 juta kesempatan berbeda untuk menerbitkan buku. Kalau buku-buku itu tidak hilang ditelan waktu, kemungkinan mereka ada di perpustakaan, dan ada banyak buku itu yang diambil dari perpustakaan dan didigitalkan oleh Google, yang telah memindai 15 juta buku sampai hari ini.

Saat Google mendigitalkan buku, mereka memasukkannya ke dalam format yang rapi. Kita sekarang punya data dan juga metadatanya. Kita punya informasi seperti di mana buku itu diterbitkan, siapa penulisnya, kapan diterbitkan. Yang kita lakukan adalah menelusuri catatan-catatan itu dan mengecualikan semua yang kualitas datanya tidak baik. Akhirnya yang tersisa adalah sekumpulan buku sebanyak lima juta, 500 miliar kata, serangkaian karakter yang seribu kali lebih panjang daripada genom manusia — teks yang jika dituliskan panjangnya adalah jarak dari sini ke Bulan dan kembali 10 kali — potongan penting genom budaya kita. Tentu saja itu yang kami lakukan ketika dihadapkan dengan hiperbola semacam itu … (Suara tawa) sama seperti yang akan dilakukan oleh peneliti sejati mana pun. Kami ambil satu halaman dari XKCD, dan berkata, “Minggir. Kami akan menggunakan ilmu pengetahuan.”

JM: Tentu saja, kami berpikir, mari pertama-tama kita gelar data ini di luar sana agar orang-orang bisa menerapkan ilmu pengetahuan sendiri. Kami berpikir, apakah data ini boleh kami buka? Tentu saja kita ingin mengambil semua buku itu dan membuka seluruh teks dari lima juta buku ini. Google, dan terutama Jon Orwant, memberi tahu kami hitungan yang harus kami ketahui. Jadi ada lima juta buku, itu artinya lima juta penulis dan lima juta pengacara dengan setumpuk tuntutan. Jadi meskipun itu akan sangat keren, kembali, itu sangat tidak praktis. (Suara tawa)

Sekali lagi, kami terjebak, dan kami mengambil pendekatan yang sangat praktis, yang kurang keren. Kami berkata, ketimbang membuka seluruh teks, kami akan membuka statistik tentang buku-buku itu saja. Jadi misalnya “A gleam of happiness.” Terdiri dari empat kata; kita menyebutnya empat-gram. Kami akan memberitahu berapa kali empat-gram tertentu muncul dalam buku di tahun 1801, 1802, 1803, sampai 2008. Itu akan menghasilkan rangkaian waktu seberapa sering frasa tertentu ini digunakan dalam periode tertentu. Kami melakukan itu pada semua kata dan frasa yang muncul dalam buku-buku itu, dan itu menghasilkan segepok dua miliar baris yang menunjukkan bagaimana budaya berubah.

ELA: Jadi dua miliar baris itu, kami menyebutkan dua miliar n-gram. Apa yang ditunjukkan? Masing-masing n-gram menunjukkan perkembangan tren budaya. Mari saya perlihatkan contohnya. Misalkan kata “thriving” dalam Bahasa Inggris kalau saya ingin menggunakan bentuk lampau kata itu. Saya mungkin menggunakan, “throve.” Selain itu saya juga bisa menggunakan, “thrived.” Mana yang harus saya gunakan? Bagaimana kita bisa tahu?

Sekitar enam bulan lalu, cara terbaik dalam bidang ini yang bisa kita lakukan, misalnya, mengunjungi psikolog dengan rambut indah ini, dan berkata, “Steve, Anda ahli dalam kata kerja tidak beraturan. Apa yang harus saya gunakan?” Dia akan menjawab, “Kebanyakan orang menggunakan “thrived”, tapi ada beberapa yang mengatakan “throve.” Kurang lebih Anda pasti tahu kalau kita kembali ke masa 200 tahun lalu dan bertanya ke pejabat yang juga punya rambut indah ini, (Suara tawa) “Tom, apa yang harus saya gunakan?” Dia akan menjawab, “Yang saya tahu, kebanyakan orang menggunakan ‘throve’, tapi ada beberapa yang mengatakan ‘thrived”. Yang akan saya tunjukkan hanyalah data mentah. Dua baris dari tabel berisi dua miliar catatan ini. Yang Anda lihat adalah frekuensi tahun demi tahun kata “thrived” dan “throve”. Ini baru dua dari dua miliar baris. Jadi keseluruhan data yang ada miliaran kali lebih keren dari ini.

JM: Ada banyak gambar yang bernilai lebih dari 500 miliar kata. Yang ini misalnya. Kalau kita gunakan kata “influenza”, bisa kita lihat puncaknya di saat epidemi flu membunuh orang-orang dunia.

ELA: Kalau Anda belum yakin bahwa tingkat permukaan laut meningkat, begitu juga dengan CO2 di atmosfer dan suhu global.

JM: Anda mungkin juga ingin melihat n-gram yang ini, dan ini untuk memberitahu Nietzsche bahwa Tuhan belum mati, meski Anda mungkin setuju yang dia butuhkan sebenarnya penerbit yang lebih baik.

ELA: Anda bisa mendapatkan konsep yang sangat abstrak dengan ini. Misalnya, mari saya ceritakan sejarah dari tahun 1950. Seperti kebanyakan periode dalam sejarah, tidak ada yang peduli dengan tahun 1950. Di tahun 1700, 1800, 1900, tidak ada yang peduli. Sepanjang tahun 30-an dan 40-an, tidak ada yang peduli. Tiba-tiba, di pertengahan tahun 40-an, mulai ramai. Orang-orang sadar bahwa tahun 1950 akan segera tiba, dan bisa jadi sesuatu yang besar. (Suara tawa) Tapi puncak ketertarikan orang-orang akan tahun 1950 adalah di tahun 1950. (Suara tawa) Orang-orang semua terobsesi. Mereka tidak bisa berhenti bicara tentang hal-hal yang mereka lakukan di tahun 1950, semua yang akan mereka lakukan di tahun 1950, semua mimpi yang ingin mereka capai di tahun 1950. Bahkan, tahun 1950 begitu menariknya hingga beberapa tahun kemudian, orang-orang masih terus berbicara tentang hal-hal yang terjadi, di tahun 1951, 1952, 1953. Akhirnya di tahun 1954, seseorang bangun dan menyadari bahwa tahun 1950 sudah lewat. (Suara tawa) Seperti itu saja, gelembungnya pun meledak.

Cerita tentang tahun 1950 adalah cerita tahunan yang kita catat, dengan sedikit variasi karena sekarang kita punya grafik yang keren ini. Karena kita punya grafik keren ini, kita bisa mengukur. Kita bisa berkata, “Seberapa cepat gelembung ini meledak?” Ternyata kita bisa mengukurnya dengan sangat tepat. Menghasilkan persamaan, menciptakan grafik, dan hasil bersihnya adalah kita menemukan gelembung ini meledak semakin cepat setiap tahunnya. Kita kehilangan minat terhadap masa lalu dengan lebih cepat.

JM: Sedikit nasihat karir. Bagi Anda yang ingin menjadi terkenal, kita bisa belajar dari 25 tokoh politik yang paling terkenal, penulis, aktor, dan sebagainya. Kalau Anda ingin cepat terkenal, Anda harus menjadi aktor, karena ketenaran mulai naik di akhir usia 20-an — Anda masih muda, benar-benar bagus. Kalau Anda mau menunggu, Anda harus menjadi penulis, karena Anda bisa naik sangat tinggi, seperti Mark Twain, misalnya: sangat terkenal. Tapi kalau Anda ingin mencapai puncak, Anda harus mau menunggu lebih lama dan, tentu saja, menjadi politikus. Di sini Anda akan menjadi terkenal di akhir usia 50-an, dan menjadi sangat terkenal sesudahnya. Ilmuwan juga cenderung menjadi terkenal di usia tua. Misalnya, ahli biologi dan fisika cenderung hampir sama terkenalnya dengan aktor. Yang tidak boleh Anda lakukan adalah menjadi ahli matematika. (Suara tawa) Kalau Anda melakukan itu, Anda mungkin berpikir, “Baiklah. Saya akan menghasilkan karya terbaik di usia 20-an.” Tapi coba tebak, tidak ada yang peduli.

ELA: Ada catatan yang lebih serius tentang n-gram. Misalnya, inilah lintasan Marc Chagall, seniman yang lahir di tahun 1887. Ini tampak seperti lintasan normal orang terkenal. Dia menjadi semakin terkenal, kecuali kalau Anda melihat dalam data bahasa Jerman. Dalam bahasa Jerman, ada sesuatu yang sangat aneh, sesuatu yang jarang Anda lihat, dia menjadi sangat terkenal dan tiba-tiba anjlok, mencapai titik dasar antara 1933 dan 1945, sebelum naik lagi setelahnya. Tentu saja, yang kita lihat adalah kenyataan bahwa Marc Chagall adalah artis Yahudi di negara Nazi Jerman.

Sinyal ini sangat kuat kita tidak perlu tahu bahwa seseorang disensor. Kita bisa melihatnya menggunakan pengolahan sinyal yang paling dasar. Inilah cara sederhana untuk melakukannya. Harapan yang masuk akal seseorang terkenal dalam periode waktu tertentu seharusnya kurang lebih sama dengan ketenaran mereka sebelum dan sesudahnya. Jadi itulah yang kita harapkan. Kita membandingkan itu dengan ketenaran yang kita amati. Kita cukup membagi satu hal dengan yang lainnya untuk mendapatkan apa yang kita sebut indeks tekanan. Kalau indeks tekanan sangat kecil, kemungkinan Anda sedang ditekan. Kalau sangat besar, mungkin Anda diuntungkan oleh propaganda.

JM: Anda bisa melihat distribusi indeks tekanan di seluruh populasi. Misalnya, di sini — indeks tekanan untuk 5000 orang dipilih dalam buku bahasa Inggris yang diketahui tidak ada tekanan — akan seperti ini, intinya berpusat pada satu titik. Yang Anda harapkan adalah yang Anda lihat. Ini distribusi seperti yang tampak di Jerman — sangat berbeda, bergeser ke kiri. Orang-orang membicarakannya dua kali lebih sedikit dari yang seharusnya. Tapi yang jauh lebih penting, distribusinya sangat lebar. Ada banyak orang yang akhirnya ada di pojok kiri distribusi ini yang berbicara sekitar 10 kali lebih sedikit dari yang seharusnya. Tapi ada banyak juga orang di pojok kanan yang diuntungkan oleh propaganda ini. Gambar ini adalah rekaman penyensoran dalam sejarah buku.

ELA: Jadi kulturomika itulah sebutan untuk metode ini. Seperti genomika. Hanya saja genomika menggunakan kacamata biologi melalui jendela rangkaian basa dalam genom manusia. Kulturomika hampir mirip. Ini adalah aplikasi analisis pengumpulan data skala besar untuk penelitian budaya manusia. Di sini, alih-alih melalui kacamata genom, kami melalui kacamata potongan digital catatan sejarah. Yang menarik tentang kulturomika ini semua orang bisa melakukannya. Mengapa semua orang bisa melakukannya? Semua orang bisa melakukannya berkat tiga orang ini, Jon Orwant, Matt Gray, dan Will Brockman di Google, melihat prototip Ngram Viewer, dan berkata, “Ini asyik. Kita harus membuatnya untuk umum.” Jadi tepat dalam dua minggu – sebelum makalah kami terbit — mereka membuat versi Ngram Viewer untuk khalayak umum. Jadi Anda bisa mengetikkan kata atau frasa yang menarik minat Anda dan langsung melihat n-gramnya — juga menelusuri contoh-contoh berbagai buku yang memuat n-gram Anda tadi.

JM: Perangkat ini digunakan lebih dari satu juta kali dalam hari pertama, dan ini yang terbaik dari semua permintaan yang ada. orang-orang selalu ingin melakukan yang terbaik. Tapi ternyata di abad ke-18, orang-orang tidak peduli dengan hal itu. Mereka tidak ingin melakukan yang terbaik, “best”, tapi “beft”. Tentu saja, ini hanya kesalahan. Bukan orang-orang saat itu ingin menjadi biasa saja, tapi karena saat itu huruf S ditulis berbeda, seperti huruf F. Google tidak mengetahui ini saat itu, jadi kami melaporkan ini dalam artikel ilmiah yang kami tulis. Tapi ini ternyata menjadi sebuah peringatan bahwa meskipun menyenangkan, saat menginterpretasikan grafik ini, Anda harus hati-hati, dan Anda harus mengadopsi standar dasar dalam ilmu pengetahuan.

ELA: Orang-orang menggunakannya untuk bermain-main. (Suara tawa) Sebenarnya, kami bahkan tidak perlu bicara, hanya perlu menunjukkan semua slide yang ada dan diam. Orang ini tertarik pada sejarah frustrasi. Ada banyak jenis frustrasi. Kalau Anda tersandung, itu “argh” dengan satu A. Kalau planet Bumi dimusnahkan oleh Vogon yang datang melalui jalan pintas antargalaksi, itu “aaaaaaaargh” dengan delapan A. Orang ini menyelidiki semua “argh,” mulai dari satu sampai delapan A. Ternyata semakin sedikit “argh” tentu saja menyatakan hal-hal yang lebih membuat frustrasi — kecuali, anehnya, di awal tahun 80-an. Kami pikir ini berhubungan dengan Reagan.

JM: Ada banyak kegunaan data ini, tapi pada dasarnya catatan sejarah sedang didigitalkan. Google sudah mulai mendigitalkan 15 juta buku. Itu 12 persen dari semua buku yang pernah diterbitkan. Itu bagian yang cukup besar dari budaya manusia. Ada banyak budaya: naskah, koran, ada yang bukan berupa teks, seperti seni dan lukisan. Semua ini ada dalam komputer kita, komputer di seluruh dunia. Dan ketika itu terjadi, itu akan mengubah cara kita memahami masa lalu, masa kini, dan budaya manusia.

Terima kasih banyak.

Author: Abdul Karim

Integrasi Matematika dan Teknologi merupakan fokus perhatian saya, dalam memberikan kontribusi kepada pendidikan matematika di Indonesi

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s