Pembelajaran Mesin 101: Diawasi, Tidak Diawasi, Pengukuhan dan Selain itu
Pembelajaran mesin adalah bahagian penting untuk menjadi a Saintis Data . Dalam istilah yang paling mudah, pembelajaran mesin menggunakanalgoritma untuk menemui corak dan membuat ramalan.Ia merupakan salah satu kaedah yang lebih popular digunakan untuk memproses sejumlah besar data mentah dan hanya akan meningkatkan populariti apabila lebih banyak syarikat cuba membuat keputusan berdasarkan data.
Pembelajaran mesin merangkumi set idea, alatan dan teknik yang luas yang digunakan oleh Saintis Data dan profesional lain. Kami telah menjelaskan konsep-konsep ini secara lebih meluas , tetapi kali ini, mari kita lihatpada beberapa komponen tertentu, danbagaimana ia boleh digunakan untuk menyelesaikan masalah.
Pembelajaran Mesin Diawasi
Tugas yang paling mudah berada di bawah payung pembelajaran diselia .
Dalam pembelajaran diselia, kami mempunyai akses kepada contoh pasangan input-output yang betul yang boleh kami tunjukkan kepada mesin semasa fasa latihan. Contoh biasa pengecaman tulisan tangan biasanya didekati sebagai tugas pembelajaran yang diawasi. Kami menunjukkan kepada komputer beberapa imej digit tulisan tangan bersama-sama dengan label yang betul untuk digit tersebut dan komputer mempelajari corak yang mengaitkan imej dengan labelnya.
Mempelajari cara melaksanakan tugas dengan cara ini, melalui contoh yang jelas, agak mudah difahami dan mudah untuk dilaksanakan, tetapi terdapat tugas yang penting: Kita hanya boleh melakukannya jika kita mempunyai akses kepada set data pasangan input-output yang betul. Dalam contoh tulisan tangan, ini bermakna bahawa pada satu ketika kita perlu menghantar manusia untuk mengklasifikasikan imej dalam set latihan. Ini adalah kerja yang sukar dan selalunya tidak boleh dilaksanakan, tetapi jika data itu wujud, algoritma pembelajaran yang diselia boleh menjadi sangat berkesan pada pelbagai tugas.
Regresi dan Klasifikasi
Tugas pembelajaran mesin yang diselia boleh dikelaskan secara meluas kepada dua subkumpulan: regresi dan pengelasan . Regresi ialah masalah menganggar atau meramal kuantiti berterusan. Apakah nilai S&P 500 sebulan dari hari ini? Berapa tinggi seorang kanak-kanak akan menjadi dewasa? Berapa ramai pelanggan kami akan pergi ke pesaing tahun ini? Ini adalah contoh soalan yang akan berada di bawah payung regresi. Untuk menyelesaikan masalah ini dalam rangka kerja pembelajaran mesin yang diselia, kami akan mengumpulkan contoh lepas bagi pasangan input/output jawapan yang betul yang menangani masalah yang sama. Untuk input, kami akan mengenal pasti ciri-ciri yang kami percaya akan meramalkan hasil yang ingin kami ramalkan.
Untuk masalah pertama, kami mungkin cuba mengumpulkan sebagai ciri harga saham di bawah S&P 500 pada tarikh tertentu bersama-sama dengan nilai S&P 500 sebulan kemudian. Ini akan membentuk set latihan kami, dari mana mesin akan cuba menentukan beberapa hubungan fungsi antara ciri dan nilai S&P 500 akhirnya.
Pengelasan berurusan dengan memberikan pemerhatian ke dalam kategori diskret, dan bukannya menganggar kuantiti berterusan. Dalam kes paling mudah, terdapat dua kategori yang mungkin; kes ini dikenali sebagai klasifikasi binari . Banyak soalan penting boleh dirangka dari segi klasifikasi binari. Adakah pelanggan tertentu akan meninggalkan kita untuk pesaing? Adakah pesakit tertentu menghidap kanser? Adakah imej yang diberikan mengandungi hot dog? Algoritma untuk melaksanakan pengelasan binari amat penting kerana kebanyakan algoritma untuk melaksanakan jenis pengelasan yang lebih umum di mana terdapat label sewenang-wenangnya hanyalah sekumpulan pengelas binari yang berfungsi bersama. Sebagai contoh, penyelesaian mudah untuk masalah pengecaman tulisan tangan adalah dengan hanya melatih sekumpulan pengelas binari: pengesan 0, pengesan 1, pengesan 2 dan seterusnya, yang menghasilkan kepastian mereka bahawa imej itu adalah imej mereka. digit masing-masing. Pengelas hanya mengeluarkan digit yang pengelasnya mempunyai kepastian tertinggi.
Sebaliknya, terdapat kelas tugas yang sama sekali berbeza yang disebut sebagai pembelajaran tanpa pengawasan . Tugas pembelajaran yang diselia mencari corak yang kami mempunyai set data jawapan yang betul untuk dipelajari. Tugas pembelajaran tanpa pengawasan mencari corak yang tidak kita lakukan. Ini mungkin kerana jawapan yang betul tidak boleh diperhatikan, atau tidak boleh diperolehi, atau mungkin untuk masalah tertentu, malah tiada jawapan yang betul.
Pengelompokan dan Pemodelan Generatif
Subkelas besar tugas tanpa pengawasan adalah masalah berkelompok . Pengelompokan merujuk kepada pengelompokan pemerhatian bersama sedemikian rupa sehingga ahli kumpulan yang sama adalah serupa antara satu sama lain, dan berbeza daripada ahli kumpulan lain. Aplikasi biasa di sini adalah dalam pemasaran, di mana kami ingin mengenal pasti segmen pelanggan atau prospek yang mempunyai keutamaan atau tabiat membeli yang serupa. Cabaran utama dalam pengelompokan ialah selalunya sukar atau mustahil untuk mengetahui bilangan gugusan yang sepatutnya wujud, atau bagaimana rupa gugusan itu.

Kelas tugas tanpa pengawasan yang sangat menarik ialah pemodelan generatif . Model generatif ialah model yang meniru proses yang menjana data latihan. Model generatif yang baik akan dapat menjana data baharu yang menyerupai data latihan dari segi tertentu. Pembelajaran jenis ini tidak diawasi kerana proses yang menjana data tidak boleh diperhatikan secara langsung - hanya data itu sendiri boleh diperhatikan.
Perkembangan terkini dalam bidang ini telah membawa kepada kemajuan yang mengejutkan dan kadangkala mengerikan dalam penjanaan imej. Imej di sini dicipta dengan melatih sejenis model pembelajaran tanpa pengawasan yang dipanggil model Deep Convolutional Generalized Adversarial Network untuk menjana imej wajah dan meminta imej lelaki tersenyum.
Pembelajaran Pengukuhan, Hibrid dan Banyak Lagi
Jenis masalah pembelajaran yang lebih baru yang telah mendapat banyak daya tarikan baru-baru ini dipanggil pembelajaran pengukuhan . Dalam pembelajaran pengukuhan, kami tidak menyediakan mesin dengan contoh pasangan input-output yang betul, tetapi kami menyediakan kaedah untuk mesin mengukur prestasinya dalam bentuk isyarat ganjaran . Kaedah pembelajaran pengukuhan menyerupai cara manusia dan haiwan belajar: mesin mencuba pelbagai perkara yang berbeza dan diberi ganjaran apabila ia melakukan sesuatu dengan baik.
Pembelajaran pengukuhan berguna dalam kes di mana ruang penyelesaian adalah besar atau tidak terhingga, dan biasanya digunakan dalam kes di mana mesin boleh dianggap sebagai ejen yang berinteraksi dengan persekitarannya. Salah satu kisah kejayaan besar pertama untuk model jenis ini adalah oleh pasukan kecil yangmelatih model pembelajaran pengukuhan untuk bermain permainan video Atari hanya menggunakan output piksel daripada permainan sebagai input. Model itu akhirnya dapat mengatasi pemain manusia pada tiga permainan, dan syarikat yang mencipta model itutelah diperoleh oleh Google untuk lebih $500Jtidak lama selepas itu.
Untuk melaksanakan pembelajaran terselia kepada masalah bermain permainan video Atari, kami memerlukan set data yang mengandungi berjuta-juta atau berbilion-bilion contoh permainan yang dimainkan oleh manusia sebenar untuk dipelajari oleh mesin. Sebaliknya, pembelajaran pengukuhan berfungsi dengan memberi mesin ganjaran mengikut prestasi prestasinya pada tugasnya. Permainan video ringkas sangat sesuai untuk jenis tugasan ini kerana markah berfungsi dengan baik sebagai ganjaran. Mesin terus belajar melalui simulasi corak mana yang memaksimumkan ganjarannya.
Selalunya, pendekatan hibrid membawa kepada hasil yang baik. Sebagai contoh, tugas penting dalam beberapa bidang ialah tugas pengesanan anomali . Algoritma pengesanan anomali memantau beberapa isyarat dan menunjukkan apabila sesuatu pelik berlaku. Contoh yang baik ialah pengesanan penipuan. Kami mahukan algoritma yang memantau aliran transaksi kad kredit dan membenderakan yang pelik. Tetapi apakah maksud pelik? Masalah ini sesuai dengan sejenis pendekatan hibrid diselia/tidak diawasi. Sudah tentu terdapat beberapa corak yang diketahui yang kami ingin algoritma itu dapat dikesan, dan kami boleh melatih model pembelajaran yang diselia dengan menunjukkannya contoh corak penipuan yang diketahui. Tetapi kami juga ingin dapat mengesan contoh yang tidak diketahui sebelum ini tentang potensi penipuan atau aktiviti luar biasa, yang mungkin dicapai melalui kaedah pembelajaran tanpa pengawasan.
Asas Pembelajaran Mesin Boleh Memberi Impak Besar
Banyak alat yang paling canggih memerlukan banyak pengetahuan canggih, dalam matematik lanjutan, statistik dan kejuruteraan perisian. Bagi pemula yang ingin bermula, ia mungkin kelihatan menggembirakan, terutamanya jika anda ingin bekerja dengan beberapa model baharu yang menarik.
Berita baiknya ialah anda boleh melakukan banyak perkara dengan asas, yang boleh diakses secara meluas. Pelbagai model pembelajaran diselia dan tidak diselia dilaksanakan dalam R dan Python, yang tersedia secara percuma dan mudah untuk disediakan pada komputer anda sendiri, malah model mudah seperti regresi linear atau logistik boleh digunakan untuk melaksanakan tugas pembelajaran mesin yang menarik dan penting.
Semak kami Kursus Sijil Pembelajaran Mesin untuk mempelajari asas-asas dan bermula. Jika anda mahu lebih, mohon sekarang ke BrainStation Program Diploma Sains Data.