Saya biasa menggunakan beberapa fungsi PHP yang mendukung url-fopen-wrapper untuk meng-grab isi halaman web dari situs lain. Misalnya:

$rss = file_get_contents('http://ferdianto.com/feed');

Tetapi beberapa situs sengaja memblokir dengan melakukan restriksi terhadap user-agent. Daripada saya membuat fungsi sendiri untuk mengganti user-agent ini, atau menggunakan library khusus untuk sebuah keperluan HTTP GET biasa, maka kita bisa memodifikasi user-agent yang dikirim oleh PHP.

Here is how:

Manfaatkan setting user_agent di php.ini. Contoh kasus adalah kita meng-grab isi dari 21 Cineplex untuk mengambil daftar film yang main. Kode dibawah ngga akan berfungsi karena situs ini mem-blok PHP

echo file_get_contents('http://21cineplex.com/play.cfm');

Outputnya:

© 1999-2007 21Cineplex.com. All materials and contents (texts, graphics, and every attributes) of 21Cineplex or 21Cineplex.com website are copyrights and trademarks of 21Cineplex. Any commercial usage of the materials and contents is forbidden without prior permission from 21Cineplex. There is no other institutions/agencies outside 21Cineplex allowed to use www.21Cineplex.com (21Cineplex website) without prior permission from 21Cineplex.

Obviously mereka memblokir user agent PHP. Hmm, ngga kok om webmaster, saya ngga mau menggunakan content itu untuk urusan duwit. Cuman contoh kasus aja kok ;)). Sekarang, kita ganti skripnya:

ini_set('user_agent', 'Im-not-a-fuckin-Mozilla/5.0');
echo file_get_contents('http://21cineplex.com/play.cfm');

Voila… there goes the content, feel free to parse. Semoga berguna ;)