TUGAS SOFTSKILL 1

July 31, 2019
UNIVERSITAS GUNADARMA
FAKULTAS TEKNOLOGI INDUSTRI


TUGAS SOFTSKILL

MATAKULIAH PENGANTAR TEKNOLOGI GAME
Machine Learned Resume-Job Matching Solution
Nama Anggota      : - Bagas Anugrah Waluyo (51416293)
  - Edmundo Alexander Saputro (52416249)
  - Muhammad Kahfi (54416971)
  - Raditya Pratama Ardiansyah (55416930)
Kelas                     : 3IA06
Nama Dosen         : Syamsi Ruhama





UNIVERSITS GUNADARMA
2019



Machine Learned Resume-Job Matching Solution
Yiou Lin, Hang Lei, Prince Clement Addo, and Xiaoyu Li
University of Electronic Science and Technology of China, Chengdu, 610054, China lyoshiwo@gmail.com hlei@uestc.edu.cn pricetheboy@gmail.com xiaoyuuestcg@uestc.edu.cn

Pekerjaan, sekarang dapat dicari melalui media online. Karena sangat menjanjikan dan sangat bermanfaat kepada pencari pekerjaan ataupun para pekerja. Tetapi solusi dari mesin tradisional tanpa memahami makna semantik dari resume yang berbeda belum sejalan dengan perubahan luar biasa dalam teknik pembelajaran mesin dan kemampuan komputasi. Solusi ini biasanya didorong oleh aturan manual dan bobot kata kunci yang ditentukan sebelumnya yang mengarah pada pengalaman pencarian yang tidak efisien dan membuat frustrasi. Untuk tujuan ini, kami menghadirkan solusi yang dipelajari dengan berbagai fitur dan metode pembelajaran yang mendalam.  Solusi kami mencakup tiga modul yang dapat dikonfigurasi yang dapat dipasang dengan sedikit pembatasan. Yaitu, ekstraksi fitur yang tidak diawasi, pelatihan pengklasifikasi dasar dan pembelajaran metode ensemble. Dalam solusi kami, daripada menggunakan aturan manual, metode yang dipelajari mesin untuk secara otomatis mendeteksi kesamaan posisi semantik diusulkan. Kemudian empat auditor yang pemula dan auditor yang berpengalaman yang dipilih.  Akhirnya, metode ensemble ini meningkatkan prediksi masing-masing auditor untuk membentuk prediksi akhir yang akan diverifikasi. Hasil eksperimen lebih dari 47 ribu resume menunjukkan bahwa solusi kami dapat secara signifikan meningkatkan posisi saat ini seperti, gaji, latar belakang pendidikan, dan skala perusahaan.

Kata kunci: jobmatching,onlineresume,semanticsimilarity,deeplearn- ing, ensemble meth

1. Perkenalan

Menyusul dampak krisis keuangan global pada tahun 2008, banyak lembaga keuangan yang runtuh. Pekerja berpengalaman, di berbagai negara maju takut akan kehilangan pekerjaan mereka yang digaji mahal, dan tidak dapat dengan mudah menemukan pekerjaan serupa di tempat lain. Mesin rekrutmen elektronik yang efektif dapat membantu pencari kerja dengan mudah mengakses peluang rekrutmen dan mengurangi tenaga rekrutmen dengan menyediakan barang-barang yang sesuai dengan minat dan kualifikasi pribadi mereka. Ini juga membebaskan perusahaan dari kelebihan informasi yang tidak jelas dan biaya iklan. Modul kunci untuk mesin perekrutan elektronik dinamis adalah sistem pencocokan pekerjaan yang berupaya melibatkan para penganggur yang cocok dengan lowongan yang akan diisi.

II
 
Dalam pekerjaan ini, kami mengevaluasi masalah kesesuaian pekerjaan sebagai masalah klasifikasi. Ini untuk mengidentifikasi rincian pekerjaan pencari kerja saat ini (posisi terakhir dalam resume) dengan riwayat pekerjaan mereka sebelumnya. Kerangka kerja dari solusi kami dibangun oleh beberapa modul berdasarkan library keras [3] dan sklearn [9], dan secara praktis dapat digunakan dan mudah untuk diverifikasi. Melalui evaluasi secara empiris, kami menunjukkan langkah demi langkah bagaimana mengintensifkan solusi dan mendapatkan kinerja yang lebih baik daripada sistem pencocokan pekerjaan berbasis aturan manual.
 
Sisa makalah ini disusun sebagai berikut. Pada Bagian 2 kami mensurvei literatur terkait untuk memberikan gambaran latar belakang penelitian. Di Bagian 3, kami memperkenalkan deskripsi dataset. Kemudian kami mengusulkan metode ekstrak fitur dan model yang dipelajari mesin dalam Bagian 4 dan 5 masing-masing. Dalam Bagian 6, kami melaporkan dua metode ensemble dan menganalisis hasil empiris. Akhirnya, makalah ini disimpulkan di Bagian 7 dengan pekerjaan masa depan kita.
2 Tinjauan Pustaka
 
Sistem pencocokan pekerjaan adalah sejenis sistem pemberi rekomendasi. Sistem pemberi rekomendasi pertama kali diperkenalkan oleh Resnick dan Varian [10] yang menunjukkan bahwa dalam sistem pemberi rekomendasi tipikal orang memberikan rekomendasi sebagai input, yang kemudian dikumpulkan dan diarahkan ke penerima yang sesuai. Setelah itu sistem rekomendasi diterima dengan baik di berbagai industri dan bidang akademik dan mendapatkan momentum selama bertahun-tahun. Secara umum, sistem rekomendasi diterapkan dalam berbagai domain (seperti buku, produk digital, film, musik, program TV, dan situs web) dan membantu pengguna untuk menemukan konten, produk, atau layanan dengan mengumpulkan dan menganalisis saran dan perilaku dari pengguna lain [2] [6]. Dalam sebuah makalah survei yang terperinci [6] dapat memberikan para peneliti pengetahuan tentang sistem rekomendasi termasuk aplikasi dunia nyata, metode rekomendasi, domain aplikasi dunia nyata, dan plat aplikasi.
 
Untuk bidang pencocokan pekerjaan, banyak penelitian yang telah dilakukan untuk membahas sistem rekomendasi yang berbeda terkait dengan masalah perekrutan juga [1]. Di antara nya, Malinowski et al. [7] membahas sistem rekomendasi pencocokan bilateral untuk menyatukan orang-orang dengan pekerjaan menggunakan algoritma Expectation Maximization (EM), sementara Golec dan Kahya [4] menggambarkan model fuzzy untuk evaluasi dan seleksi karyawan berbasis kompetensi dengan aturan fuzzy. Paparrizos et al. [8] digunakan Decision Table / Naive Bayes (DTNB) sebagai penggolong hibrid. Meskipun sistem ini menggunakan banyak atribut manual dan berbagai teknik pengambilan informasi, dibandingkan dengan pekerjaan kami yang menggunakan metode pembelajaran yang mendalam untuk mempercepat proses menemukan pekerjaan yang paling tepat, mereka masih gagal mengikuti perubahan cepat dalam kemampuan komputasi dan kecerdasan mesin. Mirip dengan karya Zhang et al. [11], pekerjaan kami juga mencoba untuk mengoptimalkan pencocokan posisi pekerja pengetahuan, dengan mempertimbangkan berbagai karakteristik pekerja pengetahuan. Dibandingkan dengan karya Guo et al. [5], solusi kami sepenuhnya digerakkan oleh data, tanpa menggunakan alat semantik luar (NLTK dan DBpedia)

III
 
Seperti yang mereka lakukan. Selain itu, data resume kami dikumpulkan secara luas dari berbagai bidang yang menjadikan solusi kami lebih universal dan kuat.
 
3 Deskripsi kumpulan data
 
Dataset yang digunakan disadap dari rekomendasi pekerjaan game1 dan dapat didownload secara bebas2. Dataset asli berisi 70.000 resume dengan 34.090 posisi berbeda. Setelah pembersihan dan penyaringan, 47.346 resume yang pekerjaan terakhirnya termasuk daftar predikasi khusus dari 32 posisi paling sering (mis. Insinyur perangkat lunak, kasir dan manajer proyek) digunakan. Meskipun demikian, ada 18.736 posisi berbeda dalam dataset. Posisi yang paling sering ditunjukkan pada Gambar 1.
 
Gbr. 1: Posisi Paling Sering yang Muncul di Dataset
 
Tabel 1 adalah contoh resume dengan informasi pribadi dan riwayat kerja pencari kerja. Secara khusus, gaji  [0,6], derajat [0,2] sedangkan ukuran berarti skala perusahaan. Deskripsi masalah kami dapat ditampilkan sebagai mengidentifikasi posisi pencari kerja saat ini (posisi terakhir dalam resume) dengan riwayat pekerjaan sebelumnya.
 
 
4. Ekstraksi Informasi dari Resume
 
Ada tiga jenis fitur utama yang terdiri dari 95 fitur manual dasar, 72 fitur klaster dan 380 fitur semantik. Secara keseluruhan, ada 551 fitur untuk setiap resume.
http://www.pkbigdata.com/common/cmpt list/all all time 1.html http://www.pkbigdata.com/common/cmptData/147.html
4.1 Fitur Manual
 
Pada awalnya, banyak fitur manual yang dirancang. Beberapa fitur adalah bertipe karakter, beberapa nilai boolean, yang lain numerik. Untuk contoh yang ditunjukkan pada Tabel 1, fitur-fiturnya termasuk tetapi tidak terbatas pada jenis kelamin, usia, jurusan, perincian dan perubahan pekerjaan sebelumnya, usia saat pertama kali dipekerjakan, gaji tertinggi dan sebagainya. Nilai fitur karakter dimasukkan ke dalam kamus, dan tombol numerik digunakan sebagai pengganti nilai saat pelatihan.
 
4.2 Fitur Cluster
 
Fitur desain dapat diubah dari karakter ke tombol numerik, tetapi frasa yang serupa (seperti insinyur perangkat lunak dan insinyur Android) tidak akan pernah diidentifikasi. Dengan demikian, kami melatih model Mandarin Word2Vec menggunakan semua teks resume. Dan embeddings kata rata-rata dari frasa sekarang dapat mewakili makna semantiknya. Metode K-mean sederhana digunakan untuk mengklasifikasikan frase menjadi 64 dan 128 cluster. 5 pengalaman kerja terakhir dalam resume disimpan, masing-masing pengalaman kerja terdiri dari 7 frasa, termasuk departemen, industri, nama posisi, gaji, ukuran, jenis (biasanya kosong) dan seperempat (jika seorang pencari kerja 4 kuartal untuk sebuah perusahaan akan ditandai sebagai "kuartal 4"). Beberapa kelompok ditunjukkan pada Tabel 2
 
4.3 Fitur Semantik
 
Berbeda dari fitur cluster, dalam hal ini kami mencoba untuk menemukan makna semantik dari frasa dan hubungan potensial dari sejarah pekerjaan secara langsung. Menurut kami dalam NLP, makna kata ditentukan oleh konteksnya dan kata-kata yang serupa memiliki konteks yang sama. Dengan demikian, kami mengubah pengalaman kerja resume menjadi daftar urutan (n * 7 + 3) frase (n pengalaman dalam resume dengan 3 frase tambahan termasuk usia, utama dan jenis kelamin). Asumsikan setiap frase Cina sebagai kata dan setiap daftar frase sebagai kalimat, setelah pelatihan word2vec, setiap frase Cina akan disajikan oleh vektor 10 dimensi dan contoh makna semantik yang serupa ditunjukkan pada Tabel 3
 
5 Model yang Dipelajari dengan Mesin


5.1 Pengukur Dangkal 
 
(a)
(b)
 
Gbr. 2: Kinerja RF dan XGB dengan Parameter Berbeda
 
 
 
 
 
VI
 
Diambil dari set pelatihan dan pemisahan terbaik dipilih di antara bagian acak dari fitur. XGBoost (XGB), bentuk singkat untuk "Extreme Gradient Boosting", adalah pustaka pendongkrak gradien terdistribusi yang dioptimalkan yang dirancang agar sangat efisien, fleksibel, dan portabel. Hasil pencarian kisi-kisi dari Hasil RF dan XGB ditunjukkan pada Gambar 2. Setelah analisis, kami menemukan bahwa 473 fitur digunakan dalam XGB sementara hanya 163 fitur yang dipilih oleh RF.
 
5.2 Estimator Dalam
 
LSTM adalah jaringan saraf berulang yang cocok untuk belajar dari pengalaman untuk mengklasifikasikan, memproses dan memprediksi deret waktu. CNN dibentuk oleh tumpukan lapisan berbeda yang mengubah volume input menjadi volume output melalui lapisan Konvensional dan lapisan Pooling. Arsitektur CNN kami adalah seperti yang ditunjukkan pada Gambar 3.
 
Pool Konvolusi
Manuel
Gugus
Meratakan
Softmax
Semantik
Ratakan Embedding
Gbr. 3: Arsitektur Model CNN
 
 
6 Metode Ensemble dan Analisis Hasil
 
Bagging adalah salah satu algoritma berbasis ensemble yang paling awal dan paling sederhana. Biasanya, masing-masing pengklasifikasi akan digabungkan dengan mengambil suara mayoritas sederhana dari keputusan mereka. Asumsikan ada tiga pengklasifikasi untuk membuat predikasi positif atau negatif. Kami meningkatkan metode bagging (bernama IBagging) dengan memilih berdasarkan jumlah probabilitas keputusan dan dapat dengan mudah diperluas ke ansambel multi-kelas. Tanpa teknik pengambilan informasi dan mesin
 
 
VII
 
Metode pembelajaran, aturan manual dasar akan merekomendasikan label yang paling sering sebagai item rekomendasi. Kemudian, kita dapat mengukur solusi pencocokan resume pekerjaan dengan dua cara. Yang satu presisi, yang tujuannya adalah untuk mencakup sebanyak mungkin posisi yang benar. Hasilnya adalah seperti yang ditunjukkan pada Tabel 4. Dengan menganalisis percobaan, kita dapat menemukan bahwa XGB berkinerja terbaik di antara empat estimator basal dengan waktu pelatihan terlama, sementara model CNN melakukan konvergensi dalam waktu singkat dengan presisi yang dapat diterima. Sementara itu, solusi kami mendapat manfaat dari metode pengemasan dan metode ekstraksi fitur semantik tanpa pengawasan kami.
 
Tabel 4: Ketepatan Berbagai Klasifikasi
 
XGB
XGB
XGB
RF
CNN
Aturan Manual IBagging Bagging LSTM
 
Berdasarkan
fitur manual fitur semantik semua fitur
semua fitur
 
semua fitur semua fitur semua fitur semua fitur sering item
tingkat posisi ukuran gaji
 
.676 .509 .392 .460 .685 .498 .391 .458 .704 .511 .396 .467 .666 .511 .394 .453 .695 .508 .391 .465 .696 .507 .390 .454 .699 .517 .396 .476 .710 .516 .397 .477 .484 .254 .256 .141
 
waktu pelatihan
 
20m 6s 41m 24s 53m 19s 7m 58s 1m 14s 5m 52s –
- -
 
Seperti yang kita ketahui, banyak pasangan posisi resume mungkin tidak muncul dalam data pengujian, tetapi mereka masuk akal dan sering keluar sama dengan pasangan yang benar paada set data pelatihan. Dengan demikian, metode evaluasi lainnya, penarikan untuk rekomendasi Top-N digunakan untuk mengevaluasi berbagai solusi pencocokan. Dalam hal ini, recall adalah proporsi posisi yang benar dari dataset pengujian. Ada 32 posisi yang mungkin untuk resume, dengan probabilitasnya diberikan oleh pengklasifikasi, solusinya merekomendasikan posisi N atas untuk resume yang diberikan, dan laporan penarikan kembali untuk berbagai nilai N. Hasil Top-N adalah seperti yang ditunjukkan pada Tabel 5. The hasil menunjukkan peningkatan yang signifikan dalam penarikan untuk Top-N menggunakan metode IBagging dibandingkan dengan metode baseline.
 
Tabel 5: Ingat untuk Rekomendasi Top-N
 
Pedoman Aturan IBagging
N = 2 N = 3 N = 4 N = 2 N = 3 N = 4

Ukuran 0,467 derajat 0,929 gaji 0,394 posisi 0,223

.664 .784 .629 1.00 1.00 .965 .573 .712 .800 .299 .373 .647

.783 .898 1.00 1.00 .920 .971 .726 .780

VIII

7 Kesimpulan dan Pekerjaan Fitur

Dalam makalah ini, kami telah mempertimbangkan masalah pencocokan resume-pekerjaan dan mengusulkan solusi dengan menggunakan ekstraksi fitur yang tidak diawasi, metode pembelajaran mesin terkejut dan metode ensemble. Solusi kami sepenuhnya berdasarkan tanggal dan dapat mendeteksi posisi serupa tanpa alat semantik tambahan. Selain itu, solusi kami termodulasi dan dapat berjalan dengan cepat pada GPU atau secara bersamaan berjalan pada CPU. Dibandingkan dengan solusi berbasis aturan manual, metode kami menunjukkan kinerja yang lebih baik dalam presisi dan recall Top-N. Kode kami sekarang publik dan dapat disadap dari Github3. Di masa depan, dengan lebih banyak informasi yang akan diambil dari situs web, solusi kami dapat diperluas dengan memasukkan informasi lokasi, keterampilan profesional, dan deskripsi persyaratan dari pencari kerja dan pemberi kerja.

8 Akui

Karya ini didukung oleh National Science Foundation of China (Grant No. 61502082) dan Dana Penelitian Fundamental untuk Universitas Pusat
 
Kelebihan :
-       Mencari pekerjaan jadi lebih mudah
-       Kinerja yang lebih baik dalam presisi dan recall Top-N
-       Solusi termodulasi dan dapat berjalan dengan cepat pada GPU atau secara bersamaan berjalan pada CPU
-       Menggunakan ekstraksi fitur yang tidak diawasi, metode pembelajaran mesin terkejut dan metode ensemble
 
Kekurangan : 
-       Persaingan antar pekerja yang semakin ketat dikarenakan mudahnya mencari pekerjaan
-       Masih menggunakan Alat Semantik Tambahan
 
Kesimpulan:
Dijaman sekarang pekerjaan dapat dicari dengan mudah melalui media online. untuk tujuan ini kami menghadirkan solusi yang dipelajari dengan berbagai fitur dan metode pembelajaran yang mendalam. soluis kami mencakup 3 modul yang dapat dikonfigurasi dan dapat dipasang dengan sedikit pembatasan. yaitu: ekstraksi fitur yang tidak diawasi,pelatihan pengklasifikasi dasar dan pembelajaran metode ensemble. diantara solusi kami metode yang kami usulkan adalah metode yang dipelajari mesin secara otomatis untuk mendeteksi kesamaan posisi semantik.
 
Dalam pekerjaan ini, kami mengevaluasi masalah kesesuaian pekerjaan sebagai masalah klasifikasi. Ini untuk mengidentifikasi rincian pekerjaan pencari kerja saat ini (posisi terakhir dalam resume) dengan riwayat pekerjaan mereka sebelumnya. Kerangka kerja dari solusi kami dibangun oleh beberapa modul berdasarkan library keras [3] dan sklearn [9], dan secara praktis dapat digunakan dan mudah untuk diverifikasi. Melalui evaluasi secara empiris, kami menunjukkan langkah demi langkah bagaimana mengintensifkan solusi dan mendapatkan kinerja yang lebih baik daripada sistem pencocokan pekerjaan berbasis aturan manual.
 
Sistem pencocokan pekerjaan adalah sejenis sistem pemberi rekomendasi. Sistem pemberi rekomendasi pertama kali diperkenalkan oleh Resnick dan Varian [10] yang menunjukkan bahwa dalam sistem pemberi rekomendasi tipikal orang memberikan rekomendasi sebagai input, yang kemudian dikumpulkan dan diarahkan ke penerima yang sesuai.
 
Dalam makalah ini, kami telah mempertimbangkan masalah pencocokan resume-pekerjaan dan mengusulkan solusi dengan menggunakan ekstraksi fitur yang tidak diawasi, metode pembelajaran mesin terkejut dan metode ensemble. Solusi kami sepenuhnya berdasarkan tanggal dan dapat mendeteksi posisi serupa tanpa alat semantik tambahan. Selain itu, solusi kami termodulasi dan dapat berjalan dengan cepat pada GPU atau secara bersamaan berjalan pada CPU. Dibandingkan dengan solusi berbasis aturan manual, metode kami menunjukkan kinerja yang lebih baik dalam presisi dan recall Top-N. Kode kami sekarang publik dan dapat disadap dari Github3. Di masa depan, dengan lebih banyak informasi yang akan diambil dari situs web, solusi kami dapat diperluas dengan memasukkan informasi lokasi, keterampilan profesional, dan deskripsi persyaratan dari pencari kerja dan pemberi kerja.








Share this

Related Posts

Previous
Next Post »