UNIVERSITAS GUNADARMA
FAKULTAS TEKNOLOGI
INDUSTRI
TUGAS SOFTSKILL
MATAKULIAH PENGANTAR TEKNOLOGI GAME
Machine Learned Resume-Job Matching
Solution
Nama Anggota : - Bagas Anugrah Waluyo
(51416293)
- Edmundo
Alexander Saputro (52416249)
- Muhammad Kahfi (54416971)
- Raditya Pratama
Ardiansyah (55416930)
Kelas : 3IA06
Nama Dosen : Syamsi Ruhama
UNIVERSITS
GUNADARMA
2019
Machine Learned Resume-Job Matching Solution
Yiou Lin, Hang Lei, Prince Clement
Addo, and Xiaoyu Li
University of Electronic Science and
Technology of China, Chengdu, 610054, China
lyoshiwo@gmail.com hlei@uestc.edu.cn pricetheboy@gmail.com
xiaoyuuestcg@uestc.edu.cn
Pekerjaan,
sekarang dapat dicari melalui media online. Karena sangat menjanjikan dan
sangat bermanfaat kepada pencari pekerjaan ataupun para pekerja. Tetapi solusi dari mesin tradisional
tanpa memahami makna semantik dari resume yang berbeda belum sejalan dengan
perubahan luar biasa dalam teknik pembelajaran mesin dan kemampuan komputasi. Solusi
ini biasanya didorong oleh aturan manual dan bobot kata kunci yang ditentukan
sebelumnya yang mengarah pada pengalaman pencarian yang tidak efisien dan
membuat frustrasi. Untuk tujuan ini, kami menghadirkan solusi yang dipelajari
dengan berbagai fitur dan metode pembelajaran yang mendalam. Solusi kami mencakup tiga modul yang dapat
dikonfigurasi yang dapat dipasang dengan sedikit pembatasan. Yaitu, ekstraksi
fitur yang tidak diawasi, pelatihan pengklasifikasi dasar dan pembelajaran
metode ensemble. Dalam solusi kami, daripada menggunakan aturan manual, metode
yang dipelajari mesin untuk secara otomatis mendeteksi kesamaan posisi semantik
diusulkan. Kemudian empat auditor yang pemula dan auditor yang berpengalaman
yang dipilih. Akhirnya, metode ensemble
ini meningkatkan prediksi masing-masing auditor untuk membentuk prediksi akhir yang
akan diverifikasi. Hasil eksperimen lebih dari 47 ribu resume menunjukkan bahwa
solusi kami dapat secara signifikan meningkatkan posisi saat ini seperti, gaji,
latar belakang pendidikan, dan skala perusahaan.
Kata
kunci: jobmatching,onlineresume,semanticsimilarity,deeplearn- ing, ensemble
meth
1. Perkenalan
Menyusul dampak krisis keuangan global pada
tahun 2008, banyak lembaga keuangan yang runtuh. Pekerja berpengalaman, di
berbagai negara maju takut akan kehilangan pekerjaan mereka yang digaji mahal,
dan tidak dapat dengan mudah menemukan pekerjaan serupa di tempat lain. Mesin
rekrutmen elektronik yang efektif dapat membantu pencari kerja dengan mudah
mengakses peluang rekrutmen dan mengurangi tenaga rekrutmen dengan menyediakan
barang-barang yang sesuai dengan minat dan kualifikasi pribadi mereka. Ini juga
membebaskan perusahaan dari kelebihan informasi yang tidak jelas dan biaya
iklan. Modul kunci untuk mesin perekrutan elektronik dinamis adalah sistem
pencocokan pekerjaan yang berupaya melibatkan para penganggur yang cocok dengan
lowongan yang akan diisi.
II
Dalam pekerjaan ini, kami mengevaluasi masalah kesesuaian pekerjaan sebagai masalah klasifikasi. Ini untuk mengidentifikasi rincian pekerjaan pencari kerja saat ini (posisi terakhir dalam resume) dengan riwayat pekerjaan mereka sebelumnya. Kerangka kerja dari solusi kami dibangun oleh beberapa modul berdasarkan library keras [3] dan sklearn [9], dan secara praktis dapat digunakan dan mudah untuk diverifikasi. Melalui evaluasi secara empiris, kami menunjukkan langkah demi langkah bagaimana mengintensifkan solusi dan mendapatkan kinerja yang lebih baik daripada sistem pencocokan pekerjaan berbasis aturan manual.
Sisa makalah ini disusun sebagai berikut. Pada Bagian 2 kami mensurvei literatur terkait untuk memberikan gambaran latar belakang penelitian. Di Bagian 3, kami memperkenalkan deskripsi dataset. Kemudian kami mengusulkan metode ekstrak fitur dan model yang dipelajari mesin dalam Bagian 4 dan 5 masing-masing. Dalam Bagian 6, kami melaporkan dua metode ensemble dan menganalisis hasil empiris. Akhirnya, makalah ini disimpulkan di Bagian 7 dengan pekerjaan masa depan kita.
2 Tinjauan Pustaka
Sistem pencocokan pekerjaan adalah sejenis sistem pemberi rekomendasi. Sistem pemberi rekomendasi pertama kali diperkenalkan oleh Resnick dan Varian [10] yang menunjukkan bahwa dalam sistem pemberi rekomendasi tipikal orang memberikan rekomendasi sebagai input, yang kemudian dikumpulkan dan diarahkan ke penerima yang sesuai. Setelah itu sistem rekomendasi diterima dengan baik di berbagai industri dan bidang akademik dan mendapatkan momentum selama bertahun-tahun. Secara umum, sistem rekomendasi diterapkan dalam berbagai domain (seperti buku, produk digital, film, musik, program TV, dan situs web) dan membantu pengguna untuk menemukan konten, produk, atau layanan dengan mengumpulkan dan menganalisis saran dan perilaku dari pengguna lain [2] [6]. Dalam sebuah makalah survei yang terperinci [6] dapat memberikan para peneliti pengetahuan tentang sistem rekomendasi termasuk aplikasi dunia nyata, metode rekomendasi, domain aplikasi dunia nyata, dan plat aplikasi.
Untuk bidang pencocokan pekerjaan, banyak penelitian yang telah dilakukan untuk membahas sistem rekomendasi yang berbeda terkait dengan masalah perekrutan juga [1]. Di antara nya, Malinowski et al. [7] membahas sistem rekomendasi pencocokan bilateral untuk menyatukan orang-orang dengan pekerjaan menggunakan algoritma Expectation Maximization (EM), sementara Golec dan Kahya [4] menggambarkan model fuzzy untuk evaluasi dan seleksi karyawan berbasis kompetensi dengan aturan fuzzy. Paparrizos et al. [8] digunakan Decision Table / Naive Bayes (DTNB) sebagai penggolong hibrid. Meskipun sistem ini menggunakan banyak atribut manual dan berbagai teknik pengambilan informasi, dibandingkan dengan pekerjaan kami yang menggunakan metode pembelajaran yang mendalam untuk mempercepat proses menemukan pekerjaan yang paling tepat, mereka masih gagal mengikuti perubahan cepat dalam kemampuan komputasi dan kecerdasan mesin. Mirip dengan karya Zhang et al. [11], pekerjaan kami juga mencoba untuk mengoptimalkan pencocokan posisi pekerja pengetahuan, dengan mempertimbangkan berbagai karakteristik pekerja pengetahuan. Dibandingkan dengan karya Guo et al. [5], solusi kami sepenuhnya digerakkan oleh data, tanpa menggunakan alat semantik luar (NLTK dan DBpedia)
III
Seperti yang mereka lakukan. Selain itu, data resume kami dikumpulkan secara luas dari berbagai bidang yang menjadikan solusi kami lebih universal dan kuat.
3 Deskripsi kumpulan data
Dataset yang digunakan disadap dari rekomendasi pekerjaan game1 dan dapat didownload secara bebas2. Dataset asli berisi 70.000 resume dengan 34.090 posisi berbeda. Setelah pembersihan dan penyaringan, 47.346 resume yang pekerjaan terakhirnya termasuk daftar predikasi khusus dari 32 posisi paling sering (mis. Insinyur perangkat lunak, kasir dan manajer proyek) digunakan. Meskipun demikian, ada 18.736 posisi berbeda dalam dataset. Posisi yang paling sering ditunjukkan pada Gambar 1.
Gbr. 1: Posisi Paling Sering yang Muncul di Dataset
Tabel 1 adalah contoh resume dengan informasi pribadi dan riwayat kerja pencari kerja. Secara khusus, gaji ∈ [0,6], derajat∈ [0,2] sedangkan ukuran berarti skala perusahaan. Deskripsi masalah kami dapat ditampilkan sebagai mengidentifikasi posisi pencari kerja saat ini (posisi terakhir dalam resume) dengan riwayat pekerjaan sebelumnya.
4. Ekstraksi Informasi dari Resume
Ada tiga jenis fitur utama yang terdiri dari 95 fitur manual dasar, 72 fitur klaster dan 380 fitur semantik. Secara keseluruhan, ada 551 fitur untuk setiap resume.
http://www.pkbigdata.com/common/cmpt
list/all all time 1.html http://www.pkbigdata.com/common/cmptData/147.html4.1 Fitur Manual
Pada awalnya, banyak fitur manual yang dirancang. Beberapa fitur adalah bertipe karakter, beberapa nilai boolean, yang lain numerik. Untuk contoh yang ditunjukkan pada Tabel 1, fitur-fiturnya termasuk tetapi tidak terbatas pada jenis kelamin, usia, jurusan, perincian dan perubahan pekerjaan sebelumnya, usia saat pertama kali dipekerjakan, gaji tertinggi dan sebagainya. Nilai fitur karakter dimasukkan ke dalam kamus, dan tombol numerik digunakan sebagai pengganti nilai saat pelatihan.
4.2 Fitur Cluster
Fitur desain dapat diubah dari karakter ke tombol numerik, tetapi frasa yang serupa (seperti insinyur perangkat lunak dan insinyur Android) tidak akan pernah diidentifikasi. Dengan demikian, kami melatih model Mandarin Word2Vec menggunakan semua teks resume. Dan embeddings kata rata-rata dari frasa sekarang dapat mewakili makna semantiknya. Metode K-mean sederhana digunakan untuk mengklasifikasikan frase menjadi 64 dan 128 cluster. 5 pengalaman kerja terakhir dalam resume disimpan, masing-masing pengalaman kerja terdiri dari 7 frasa, termasuk departemen, industri, nama posisi, gaji, ukuran, jenis (biasanya kosong) dan seperempat (jika seorang pencari kerja 4 kuartal untuk sebuah perusahaan akan ditandai sebagai "kuartal 4"). Beberapa kelompok ditunjukkan pada Tabel 2
4.3 Fitur Semantik
Berbeda dari fitur cluster, dalam hal ini kami mencoba untuk menemukan makna semantik dari frasa dan hubungan potensial dari sejarah pekerjaan secara langsung. Menurut kami dalam NLP, makna kata ditentukan oleh konteksnya dan kata-kata yang serupa memiliki konteks yang sama. Dengan demikian, kami mengubah pengalaman kerja resume menjadi daftar urutan (n * 7 + 3) frase (n pengalaman dalam resume dengan 3 frase tambahan termasuk usia, utama dan jenis kelamin). Asumsikan setiap frase Cina sebagai kata dan setiap daftar frase sebagai kalimat, setelah pelatihan word2vec, setiap frase Cina akan disajikan oleh vektor 10 dimensi dan contoh makna semantik yang serupa ditunjukkan pada Tabel 3
5 Model yang Dipelajari dengan Mesin
5.1 Pengukur Dangkal
(a)
(b)
Gbr. 2: Kinerja RF dan XGB dengan Parameter Berbeda
VI
Diambil dari set pelatihan dan pemisahan terbaik dipilih di antara bagian acak dari fitur. XGBoost (XGB), bentuk singkat untuk "Extreme Gradient Boosting", adalah pustaka pendongkrak gradien terdistribusi yang dioptimalkan yang dirancang agar sangat efisien, fleksibel, dan portabel. Hasil pencarian kisi-kisi dari Hasil RF dan XGB ditunjukkan pada Gambar 2. Setelah analisis, kami menemukan bahwa 473 fitur digunakan dalam XGB sementara hanya 163 fitur yang dipilih oleh RF.
5.2 Estimator Dalam
LSTM adalah jaringan saraf berulang yang cocok untuk belajar dari pengalaman untuk mengklasifikasikan, memproses dan memprediksi deret waktu. CNN dibentuk oleh tumpukan lapisan berbeda yang mengubah volume input menjadi volume output melalui lapisan Konvensional dan lapisan Pooling. Arsitektur CNN kami adalah seperti yang ditunjukkan pada Gambar 3.
Pool Konvolusi
Manuel
Gugus
Meratakan
Softmax
Semantik
Ratakan Embedding
Gbr. 3: Arsitektur Model CNN
6 Metode Ensemble dan Analisis Hasil
Bagging adalah salah satu algoritma berbasis ensemble yang paling awal dan paling sederhana. Biasanya, masing-masing pengklasifikasi akan digabungkan dengan mengambil suara mayoritas sederhana dari keputusan mereka. Asumsikan ada tiga pengklasifikasi untuk membuat predikasi positif atau negatif. Kami meningkatkan metode bagging (bernama IBagging) dengan memilih berdasarkan jumlah probabilitas keputusan dan dapat dengan mudah diperluas ke ansambel multi-kelas. Tanpa teknik pengambilan informasi dan mesin
VII
Metode pembelajaran, aturan manual dasar akan merekomendasikan label yang paling sering sebagai item rekomendasi. Kemudian, kita dapat mengukur solusi pencocokan resume pekerjaan dengan dua cara. Yang satu presisi, yang tujuannya adalah untuk mencakup sebanyak mungkin posisi yang benar. Hasilnya adalah seperti yang ditunjukkan pada Tabel 4. Dengan menganalisis percobaan, kita dapat menemukan bahwa XGB berkinerja terbaik di antara empat estimator basal dengan waktu pelatihan terlama, sementara model CNN melakukan konvergensi dalam waktu singkat dengan presisi yang dapat diterima. Sementara itu, solusi kami mendapat manfaat dari metode pengemasan dan metode ekstraksi fitur semantik tanpa pengawasan kami.
Tabel 4: Ketepatan Berbagai Klasifikasi
XGB
XGB
XGB
RF
CNN
Aturan Manual IBagging Bagging LSTM
Berdasarkan
fitur manual fitur semantik semua fitur
semua fitur
semua fitur semua fitur semua fitur semua fitur sering item
tingkat posisi ukuran gaji
.676 .509 .392 .460 .685 .498 .391 .458 .704 .511 .396 .467 .666 .511 .394 .453 .695 .508 .391 .465 .696 .507 .390 .454 .699 .517 .396 .476 .710 .516 .397 .477 .484 .254 .256 .141
waktu pelatihan
20m 6s 41m 24s 53m 19s 7m 58s 1m 14s 5m 52s –
- -
Seperti yang kita ketahui, banyak pasangan posisi resume mungkin tidak muncul dalam data pengujian, tetapi mereka masuk akal dan sering keluar sama dengan pasangan yang benar paada set data pelatihan. Dengan demikian, metode evaluasi lainnya, penarikan untuk rekomendasi Top-N digunakan untuk mengevaluasi berbagai solusi pencocokan. Dalam hal ini, recall adalah proporsi posisi yang benar dari dataset pengujian. Ada 32 posisi yang mungkin untuk resume, dengan probabilitasnya diberikan oleh pengklasifikasi, solusinya merekomendasikan posisi N atas untuk resume yang diberikan, dan laporan penarikan kembali untuk berbagai nilai N. Hasil Top-N adalah seperti yang ditunjukkan pada Tabel 5. The hasil menunjukkan peningkatan yang signifikan dalam penarikan untuk Top-N menggunakan metode IBagging dibandingkan dengan metode baseline.
Tabel 5: Ingat untuk Rekomendasi Top-N
Pedoman Aturan IBagging
N = 2 N = 3 N = 4 N = 2 N = 3 N = 4
Ukuran 0,467 derajat 0,929 gaji 0,394 posisi 0,223
.664 .784 .629 1.00 1.00 .965 .573 .712 .800 .299 .373 .647
.783 .898 1.00 1.00 .920 .971 .726 .780
VIII
7 Kesimpulan dan
Pekerjaan Fitur
Dalam makalah ini, kami telah mempertimbangkan masalah
pencocokan resume-pekerjaan dan mengusulkan solusi dengan menggunakan
ekstraksi fitur yang tidak diawasi, metode pembelajaran mesin terkejut dan
metode ensemble. Solusi kami sepenuhnya berdasarkan tanggal dan dapat
mendeteksi posisi serupa tanpa alat semantik tambahan. Selain itu, solusi kami termodulasi dan dapat berjalan dengan cepat pada
GPU atau secara bersamaan berjalan pada CPU. Dibandingkan dengan solusi
berbasis aturan manual, metode kami menunjukkan kinerja
yang lebih baik dalam presisi dan recall Top-N. Kode kami sekarang publik
dan dapat disadap dari Github3. Di masa depan, dengan lebih banyak informasi
yang akan diambil dari situs web, solusi kami dapat diperluas dengan memasukkan
informasi lokasi, keterampilan profesional, dan deskripsi persyaratan dari
pencari kerja dan pemberi kerja.
8 Akui
Karya ini didukung oleh National Science Foundation of China
(Grant No. 61502082) dan Dana Penelitian Fundamental untuk Universitas Pusat
Kelebihan :
- Mencari pekerjaan jadi lebih mudah
- Kinerja yang lebih baik dalam presisi dan recall Top-N
- Solusi termodulasi dan dapat berjalan dengan cepat pada GPU atau secara bersamaan berjalan pada CPU
- Menggunakan ekstraksi fitur yang tidak diawasi, metode pembelajaran mesin terkejut dan metode ensemble
Kekurangan :
- Persaingan antar pekerja yang semakin ketat dikarenakan mudahnya mencari pekerjaan
- Masih menggunakan Alat Semantik Tambahan
Kesimpulan:
Dijaman sekarang pekerjaan dapat dicari dengan mudah melalui media online. untuk tujuan ini kami menghadirkan solusi yang dipelajari dengan berbagai fitur dan metode pembelajaran yang mendalam. soluis kami mencakup 3 modul yang dapat dikonfigurasi dan dapat dipasang dengan sedikit pembatasan. yaitu: ekstraksi fitur yang tidak diawasi,pelatihan pengklasifikasi dasar dan pembelajaran metode ensemble. diantara solusi kami metode yang kami usulkan adalah metode yang dipelajari mesin secara otomatis untuk mendeteksi kesamaan posisi semantik.
Dalam pekerjaan ini, kami mengevaluasi masalah kesesuaian pekerjaan sebagai masalah klasifikasi. Ini untuk mengidentifikasi rincian pekerjaan pencari kerja saat ini (posisi terakhir dalam resume) dengan riwayat pekerjaan mereka sebelumnya. Kerangka kerja dari solusi kami dibangun oleh beberapa modul berdasarkan library keras [3] dan sklearn [9], dan secara praktis dapat digunakan dan mudah untuk diverifikasi. Melalui evaluasi secara empiris, kami menunjukkan langkah demi langkah bagaimana mengintensifkan solusi dan mendapatkan kinerja yang lebih baik daripada sistem pencocokan pekerjaan berbasis aturan manual.
Sistem pencocokan pekerjaan adalah sejenis sistem pemberi rekomendasi. Sistem pemberi rekomendasi pertama kali diperkenalkan oleh Resnick dan Varian [10] yang menunjukkan bahwa dalam sistem pemberi rekomendasi tipikal orang memberikan rekomendasi sebagai input, yang kemudian dikumpulkan dan diarahkan ke penerima yang sesuai.
Dalam makalah ini, kami telah mempertimbangkan masalah
pencocokan resume-pekerjaan dan mengusulkan solusi dengan menggunakan ekstraksi
fitur yang tidak diawasi, metode pembelajaran mesin terkejut dan metode
ensemble. Solusi kami sepenuhnya berdasarkan tanggal dan dapat mendeteksi
posisi serupa tanpa alat semantik tambahan. Selain itu, solusi kami termodulasi
dan dapat berjalan dengan cepat pada GPU atau secara bersamaan berjalan pada
CPU. Dibandingkan dengan solusi berbasis aturan manual, metode kami menunjukkan
kinerja yang lebih baik dalam presisi dan recall Top-N. Kode kami sekarang
publik dan dapat disadap dari Github3. Di masa depan, dengan lebih banyak
informasi yang akan diambil dari situs web, solusi kami dapat diperluas dengan
memasukkan informasi lokasi, keterampilan profesional, dan deskripsi
persyaratan dari pencari kerja dan pemberi kerja.