ওয়েব ক্যাপচার এবং রূপান্তর করার সরঞ্জামসমূহ

একটি কাস্টম লিঙ্ক পরীক্ষক তৈরি করুন

এই উদাহরণটি একটি হিসাবেও উপলব্ধ টেমপ্লেট.

গ্র্যাবআইটি'র ওয়েব স্ক্র্যাপার এটি বিভিন্ন অনলাইন কাজ সম্পাদন করার অনুমতি দেয় এমন নমনীয়, যেমন কোনও ওয়েবসাইটের লিঙ্কগুলি পরীক্ষা করা এবং ভাঙ্গা প্রতিবেদন করা।

প্রথম কাজটি হ'ল একটি তৈরি করা গেরো এবং আপনি যে টার্গেট ওয়েবসাইটটি যাচাই করতে চান তা নির্ধারণ করুন, তারপরে স্ক্র্যাপের নির্দেশাবলীর জন্য নীচের কোডটি ব্যবহার করুন।

        var urls = Page.getTagAttributes('href', {"tag":{"equals":"a"}});
        urls = Utility.Array.unique(urls);
        urls = Utility.Array.filter(urls, Data.readColumn("Links", "URL"));

        for (i = 0; i < urls.length; i++) 
        {
          var url = urls[i];

          Data.save(Page.getUrl(), "Links", "Found On");
          Data.save(url, "Links", "URL");

          if (Utility.URL.exists(url))
          {
            Data.save("Found", "Links", "Result");
          }
          else
          {
            Data.save("Missing", "Links", "Result");
          }
        }
    

প্রথম লাইন var urls = Page.getTagAttributes('href', {"tag":{"equals":"a"}}); সমস্ত হাইপারলিংক ইউআরএল বের করে এবং এগুলিতে রাখে urls পরিবর্তনশীল। পরবর্তী লাইনটি ব্যবহার করে ইউটিলিটি.আরে.উনিক সমস্ত ইউআরএল অনন্য করতে পদ্ধতি।

তৃতীয় লাইনটি নিশ্চিত করে যে লিঙ্কগুলি এটি করার জন্য দু'বার চেক করা হচ্ছে না আমরা এর আগে যে URL টি পড়েছিলাম তা পড়ে read saved এবং এর মাধ্যমে উত্তোলিত লিঙ্কগুলি ফিল্টার করুন। আপনি যদি প্রতিটি পৃষ্ঠাগুলি চান তবে একটি লিঙ্ক নষ্ট হয়ে গেছে এটি রেকর্ড করার জন্য line

ইউআরএল ডেটা পরিষ্কার হওয়ার পরে আমরা প্রতিটি অবশিষ্ট ইউআরএল লুপ করব, এটিতে সংরক্ষণ করে ডেটা সেটটি বর্তমান পৃষ্ঠার পাশাপাশি, ইউআরএল ব্যবহার করে URL উপস্থিত আছে কিনা তা যাচাই করার আগে Utility.URL.exists পদ্ধতি। এই চেক ফলাফল এছাড়াও হয় saveডেটাসেটে ডি।

বিকল্পভাবে আপনি কোডটি প্রতিস্থাপন করে কোনও ওয়েবসাইটের চিত্রের অস্তিত্ব আছে কিনা তা পরীক্ষা করতে পারেন Page.getTagAttributes('href', {"tag":{"equals":"a"}}); সঙ্গে Page.getTagAttributes('src', {"tag":{"equals":"img"}});.