Semalt: PHP veb səhifəsini kəsmək üçün 3 addım

Veb məlumatların çıxarılması və ya veb yığımı da adlandırılan veb qırıntı veb saytdan və ya blogdan məlumatların çıxarılması prosesidir. Daha sonra bu məlumat meta etiketləri, meta təsvirləri, açar sözlər və bir sayta bağlantı qurmaq, axtarış motorunun nəticələrindəki ümumi performansını artırmaq üçün istifadə olunur.

Məlumatları qarmaq üçün iki əsas üsul istifadə olunur:

  • Sənədin analizi - DOM (Document Object Model) sənədlərinə çevrilən bir XML və ya HTML sənəd daxildir. PHP bizə böyük DOM uzantısı təqdim edir.
  • Daimi ifadələr - İnternet sənədlərindən müntəzəm ifadələr şəklində məlumatları kəsmək üsuludur.

Üçüncü tərəf veb saytının cırılmış məlumatları ilə bağlı problem onun müəllif hüquqları ilə əlaqədardır, çünki bu məlumatları istifadə etməyə icazəniz yoxdur. Ancaq PHP ilə, müəllif hüquqları və ya keyfiyyəti ilə əlaqəli problem olmadan məlumatları asanlıqla qıra bilərsiniz. Bir PHP proqramçısı olaraq kodlaşdırma məqsədləri üçün fərqli veb saytların məlumatlarına ehtiyacınız ola bilər. Burada digər saytlardan məlumatları necə effektiv şəkildə əldə etməyimizi izah etdik, ancaq bundan əvvəl, sonda index.php və ya scrape.js fayllarını əldə edəcəyinizi unutmayın.

Addım1: Veb saytın URL-sini daxil etmək üçün Forma yaradın:

Əvvəla, təqdim düyməsini basaraq index.php-də forma yaratmalı və məlumatların qırılması üçün veb sayt URL-i daxil etməlisiniz.

<form metodu = "post" adı = "scrape_form" id = "scrap_form" acti>

Scrape məlumatlarına veb sayt URL-i daxil edin

<giriş növü = "input" name = "website_url" id = "website_url">

<giriş növü = "göndər" adı = "təqdim et" dəyəri = "Göndər">

</form>

Steps2: Veb saytından məlumat əldə etmək üçün PHP funksiyası yaradın:

İkinci addım, scrape.php faylında PHP funksiyası parçaları yaratmaqdır, çünki məlumat əldə etməyə və URL kitabxanasından istifadə etməyə kömək edəcəkdir. Ayrıca heç bir problem olmadan fərqli serverlər və protokollarla əlaqə qurmağınıza və əlaqə yaratmağınıza imkan verəcəkdir.

funksiyası scrapeSiteData ($ website_url) {

əgər (! function_exists ('curl_init')) {

die ('cURL quraşdırılmadı. Lütfən quraşdırın və yenidən cəhd edin.');

}

$ curl = curl_init ();

curl_setopt ($ curl, CURLOPT_URL, $ website_url);

curl_setopt ($ curl, CURLOPT_RETURNTRANSFER, doğru);

$ çıxış = curl_exec ($ curl);

curl_close ($ curl);

$ çıxışı qaytarın;

}

Burada, PHP cURL-in düzgün qurulduğunu və ya olmadığını görə bilərik. Üç əsas cURL funksiyaları bölgəsində istifadə edilməlidir və curl_init () iclasların başlanmasına kömək edəcək, curl_exec () onu icra edəcək və curl_close () əlaqəni bağlamağa kömək edəcəkdir. CURLOPT_URL kimi dəyişənlər, qaşqalamaq lazım olan veb sayt URL-lərini təyin etmək üçün istifadə olunur. İkinci CURLOPT_RETURNTRANSFER, qırılmış səhifələrin ilkin veb şəklində deyil, dəyişkən formada saxlanmasına kömək edəcəkdir ki, nəticədə bütün veb səhifə göstərilir.

Steps3: Veb saytından Xüsusi Məlumatlar Scrape:

PHP faylınızın funksiyalarını idarə etmək və veb səhifənizin xüsusi hissəsini qırmaq vaxtı gəldi. Müəyyən bir URL-dən bütün məlumatları istəmirsinizsə, CURLOPT_RETURNTRANSFER dəyişənlərindən istifadə edərək redaktə etməli və qırınmaq istədiyiniz bölmələri vurğulamalısınız.

əgər (isset ($ _ POST ['göndər'])) {

$ html = scrapeWebsiteData ($ _ POST ['website_url']);

$ start_point = strpos ($ html, 'Son ismarıclar');

$ end_point = strpos ($ html, '', $ start_point);

$ uzunluğu = $ end_point - $ start_point;

$ html = substr ($ html, $ start_point, $ uzunluğu);

echo $ html;

}

Bu kodlardan hər hansı birini istifadə etməzdən əvvəl PHP və Mütəmadi ifadələr haqqında əsas biliklərinizi inkişaf etdirməyinizi və ya şəxsi məqsədlər üçün müəyyən bir blog və ya veb saytınızı kəsməyi təklif edirik.