Hallo guys,
Mungkin sudah 10 (sepuluh tahun) yang lalu ya saya belajar nulis blog, biasa penyebabnya karena males dan gak terbiasa mengungkapkan isi hati dengan tulisan, cieee....ciee...
Sekarang karena sudah mulai terbiasa WA nan, FB an jadi mau coba-coba lagi nulis, kebetulan mulai aktif belajar (biar uban nambah banyak) Python.
Karena kemaren baru selesai satu step belajar web steam scrapping jadi sekarang mau cerita soal web steam scrapping, ok kita mulai aja ya.
Apa sih yang dimaksud deng Web Scrapping ?
Web scraping adalah proses pengambilan dan ekstrasi data dari sebuah website untuk tujuan tertentu.
Misal untuk tujuan mengetahui jumlah produk tertantu dalam suatu website, menganalisa data kompetitor dalam jumlah yang besar dimana proses nya membutuhkan bantuan tools lain dalam hal ini dengan python.
Python itu mahluk apa sih ?
Menurut wikipedia (https://id.wikipedia.org/wiki/Python_(bahasa_pemrograman)) :
Python adalah bahasa pemrograman multi-paradigma. Pemrograman berorientasi objek dan pemrograman terstruktur juga didukung penuh, dan banyak fiturnya mendukung pemrograman fungsional dan pemrograman berorientasi aspek (termasuk dengan metaprogramming[38] dan metaobjects (metode ajaib)).[39] Banyak paradigma lain yang didukung melalui ekstensi, termasuk desain berdasarkan kontrak[40] dan pemrograman logika.[41]
Desain Python menawarkan beberapa dukungan untuk pemrograman fungsional dalam tradisi Lisp. Memiliki fungsi filter, map, dan reduce;daftar pemahaman, kamus, set, dan ekspresi generator.[42] Pustaka standar memiliki dua modul (itertools dan functools) yang mengimplementasikan alat fungsional yang dipinjam dari Haskell dan Standard ML.[43]
Filosofi inti bahasa diringkas dalam dokumen The Zen of Python (PEP 20), yang mencakup kata-kata mutiara seperti:[44]
Cantik itu lebih baik dari pada jelek.
Eksplisit lebih baik daripada implisit.
Sederhana lebih baik daripada kompleks.
Kompleks lebih baik daripada rumit.
Keterbacaan itu penting.
Langkah-langkah web scrapping dengan python :
1. Menentukan website apa yang akan discrapping
2. Membuat Repository baru di Github/Gitlab dan menambahkan 1 (satu) baris baru paling atas dalam file gitignore dengan langkah : create repository-->beri nama repository-->check Add .gitignore-->Add gitiginore template dengan mengetik python-->create repository.
membuka file gitignore-->edit file-->tambahkan .idea/ di baris paling atas dan save.
kemudian di clone dengan cara mengcopy url https untuk di paste kan di pycharm untuk dikerjakan di pycharm.
3. Buka Pycharm di laptop/PC anda pilih VCS dan paste kan code url https yang anda peroleh lewat Github/Gitlab.
4. Setelah pycharm terbuka, create new python file dan beri nama (huruf kecil tanpa spasi dan extensi .py)
5. Ketik Import Requests dan import bs4 dengan cara from bs4 import BeautifulSoup serta url website yang akan di scraping.
6. Tulis kode user agent pada website tersebut dengan cara klik kanan di tampilan website dan pilih inspect elemen/inspeksi, masuk ke menu network, kemudian header dan scroll ke bawah.
7. Berikutnya ketik :
r = requests.get(url, headers=headers) --> meminta akses ke url
soup = BeautifulSoup(r.text, 'html.parser') --> untuk mendapatkan isi url
steam = soup.findAll('div', attrs={'class':'carousel_items'})
for steams in steam:
print(steams)
8. Run
9. Hasil
10. Selesai
No comments:
Post a Comment