ওয়েব ক্যাপচার এবং রূপান্তর করার সরঞ্জামসমূহ

ওয়েব স্ক্র্যাপার ডকুমেন্টেশন

ওয়েব স্ক্র্যাপ তৈরি করতে আপনাকে নীচের ট্যাবগুলিতে ছড়িয়ে থাকা পাঁচ ধরণের তথ্য নির্দিষ্ট করতে হবে।

  1. স্ক্র্যাপের বিকল্পগুলি
  2. লক্ষ্য ওয়েবসাইট
  3. স্ক্র্যাপ নির্দেশাবলী
  4. রফতানির বিকল্প
  5. তফসিল স্ক্র্যাপ

স্ক্র্যাপের বিকল্পগুলি

স্ক্র্যাপ বিকল্প ট্যাবে ওয়েব স্ক্র্যাপ কাস্টমাইজ করতে নীচের সমস্ত বৈশিষ্ট্য উপলব্ধ।

স্ক্র্যাপের নাম স্ক্র্যাপের নাম।

লিঙ্কগুলি অনুসরণ করুন স্ক্র্যাপার লিঙ্কগুলি কীভাবে অনুসরণ করা উচিত সে সম্পর্কে নিম্নলিখিত বিকল্পগুলি সরবরাহ করে:

ফাইল ডাউনলোডগুলি উপেক্ষা করুন একবারে কোনও লিঙ্ক সেট করুন, যা দেখার পরে ফাইল ডাউনলোডের কারণ হয় না cause

Robots.txt ফাইল উপেক্ষা করুন যদি সেট করা থাকে তবে স্ক্র্যাপার ওয়েবসাইটের মালিক দ্বারা ক্রল হওয়া থেকে বাদ দেওয়া ওয়েব পৃষ্ঠাগুলি দেখতে পারেন।

ত্রুটি পৃষ্ঠাগুলি উপেক্ষা করুন যদি ওয়েব স্ক্র্যাপার সেট করা হয় তবে ত্রুটির প্রতিবেদন করে এমন কোনো ওয়েব পৃষ্ঠা এড়িয়ে যাবে। তাই যেকোনো HTTP স্ট্যাটাস কোড 400 বা তার বেশি।

ইউআরএল টুকরা উপেক্ষা করুন সেট করা হলে ওয়েব স্ক্র্যাপার ইউআরএল-এর পরে অংশটিকে উপেক্ষা করবে # এই বৈশিষ্ট্যটি সাধারণত একই পৃষ্ঠায় একটি বুকমার্ক বোঝাতে ব্যবহৃত হয় এবং তাই সাধারণত অপ্রয়োজনীয় পৃষ্ঠাগুলি স্ক্র্যাপ করা হয়। যাইহোক, কিছু ওয়েবসাইট বিভিন্ন বিষয়বস্তু দেখানোর জন্য এই বৈশিষ্ট্যটি ব্যবহার করে, সেক্ষেত্রে এই সেটিংটি নিষ্ক্রিয় করা প্রয়োজন। এই বিকল্পটি শুধুমাত্র তখনই প্রযোজ্য যখন অনুসরণ করা লিঙ্কগুলি প্রয়োজনীয় নয়৷

সদৃশগুলি উপেক্ষা করুন যদি সেট করা থাকে তবে এটি আপনি নির্ধারিত মিলের চেয়ে সমান বা তার চেয়ে বেশি পাতাগুলি উপেক্ষা করবে, উদাহরণস্বরূপ আপনি 95% একই পৃষ্ঠাগুলি উপেক্ষা করতে পারেন।

সীমাবদ্ধ স্ক্র্যাপ থামানোর আগে ওয়েব স্ক্র্যাপার কত পৃষ্ঠাতে স্ক্র্যাপ হওয়া উচিত তা আপনাকে নির্দিষ্ট করতে দেয়।

আমার টাইমজোন ব্যবহার করুন যদি সেট করা থাকে তবে এটি ইঙ্গিত করে যে ওয়েব স্ক্র্যাপার কোনও তারিখকে স্ক্র্যাপ করে রূপান্তর করার চেষ্টা করা উচিত into আপনার স্থানীয় সময় অঞ্চল। আপনার সময় অঞ্চলটি অ্যাকাউন্ট পৃষ্ঠায় সেট করা যেতে পারে।

অবস্থান ভৌগলিক অবস্থান থেকে ওয়েব স্ক্র্যাপার স্ক্র্যাপটি সম্পাদন করবে। যদি লক্ষ্য ওয়েবসাইটের অবস্থানের ভিত্তিতে বিধিনিষেধ থাকে তবে এটি কার্যকর হতে পারে।

ডিফল্ট তারিখ ফর্ম্যাট তারিখগুলি রূপান্তর করার সময় যেখানে তারিখের ফর্ম্যাট নির্ধারণ করা যায় না, ওয়েব স্ক্র্যাপার পরিবর্তে এই নির্বাচিত বিন্যাসে ডিফল্ট হবে।

পৃষ্ঠা লোড বিলম্ব এই মুহুর্তে মিলি সেকেন্ডে ওয়েব স্ক্র্যাপার কোনও পৃষ্ঠা বিশ্লেষণের আগে অপেক্ষা করা উচিত। যদি কোনও পৃষ্ঠায় প্রচুর এজেএক্স থাকে বা লোড হতে ধীর হয় তবে এটি খুব কার্যকর।

লক্ষ্য ওয়েবসাইট

লক্ষ্য ওয়েবসাইট

টার্গেট ওয়েবসাইট ট্যাবে আপনি যে ওয়েবসাইটগুলি থেকে ডেটা বের করতে চান তা নির্দিষ্ট করুন৷ স্ক্র্যাপ টুলকে একটি ওয়েবসাইট থেকে ডেটা বের করতে বলার জন্য আপনাকে প্রথমে আপনার মূল URLটি নির্দিষ্ট করতে হবে intউদ্রেক করা যেমন http://www.example.com/shop/ এটি ছিল স্ক্র্যাপার তার স্ক্র্যাপটি শুরু করবে, এটি একটি সাধারণ ওয়েবপৃষ্ঠা, পিডিএফ ডকুমেন্ট, এক্সএমএল ডকুমেন্ট, জেএসএন নথি, আরএসএস ফিড বা সাইটম্যাপ হতে পারে। যদি এটি কোনও ওয়েব পৃষ্ঠা বা পিডিএফ ডকুমেন্ট না হয় তবে স্ক্র্যাপারটি ফাইলে সমস্ত লিঙ্ক সন্ধান করবে এবং প্রত্যেকে দেখতে পাবে।

কেবলমাত্র লক্ষ্যযুক্ত ইউআরএলে প্রাপ্ত লিঙ্কগুলি অনুসরণ করতে এবং পরবর্তী কোনও পৃষ্ঠাগুলি নয় যা আপনি সেট করতে পারেন লিঙ্কগুলি অনুসরণ করুন স্ক্র্যাপ বিকল্প থেকে প্রথম পৃষ্ঠায়। এটি কেবলমাত্র স্ক্র্যাপের বাকি অংশগুলিকে বীজ দিতে লক্ষ্যযুক্ত ইউআরএল ব্যবহার করবে।

ইউআরএল প্যাটার্ন

ডিফল্টরূপে, ওয়েব স্ক্র্যাপার প্রতিটি লিঙ্কে এটি অনুসন্ধান করা প্রতিটি লিঙ্ক অনুসরণ করে। আপনি যদি লিঙ্ক করতে চান তবে সীমাবদ্ধ রাখতে চান ওয়েব স্ক্র্যাপার অনুসরণ করে, এটি করার একটি সহজ উপায় হল একটি URL প্যাটার্ন নির্দিষ্ট করা। এই শক্তিশালী কৌশলটি প্রধানত একটি ইউআরএল নির্দিষ্ট করে একটি ওয়াইল্ড কার্ড হিসাবে তারকাচিহ্নের সাথে কাজ করে যে প্যাটার্নের এই অংশে যেকোনো অক্ষর উপস্থিত থাকতে পারে। এই ক্ষেত্রে http://www.example.com/*/articles/* ওয়েবসাইটের মূল থেকে দ্বিতীয় ডিরেক্টরি হিসাবে নিবন্ধ রয়েছে এমন কোনও URL এর স্ক্র্যাপ করবে।

ইউআরএল প্যাটার্ন সংজ্ঞায়িত করার আরও সীমাবদ্ধ উপায় হ'ল বিকল্প সংজ্ঞা দেওয়া। উদাহরণস্বরূপ এই উদাহরণটি কেবল স্টোর বা খবরের সাথে মিলবে: http://www.example.com/ /*

সুতরাং এটি এই মেলে http://www.example.com/store/products/1 কিন্তু না http://www.example.com/about/.

অথবা বিকল্পভাবে এটা সম্ভব কিন্তু কিছু কিছুর সাথে মেলে। উদাহরণস্বরূপ এই উদাহরণটি স্টোর বা খবরের সাথে মিলবে না: http://www.example.com/ /*

সুতরাং এটি এই মেলে http://www.example.com/about/ কিন্তু না http://www.example.com/store/products/1!

একটি URL প্যাটার্নে কীওয়ার্ডও থাকতে পারে। একটি কীওয়ার্ড হল একটি ডবল বর্গাকার বন্ধনীতে থাকা যেকোনো কিছু। তাই [[URL_START]]www.example.com* একটি URL এর কোনো বৈধ শুরুর সাথে মিলবে তাই http://www.example.com/, https://www.example.com/ অথবা এমনকি ftp://www.example.com/ এই ক্ষেত্রে.

বীজ ইউআরএল এর

বীজ ইউআরএল ব্যবহারকারীদের ইউআরএলগুলির একটি তালিকা নির্দিষ্ট করার অনুমতি দেয় যা অবশ্যই ওয়েব স্ক্র্যাপার দ্বারা ক্রল করা উচিত be আপনি যদি কেবল বীজ ইউআরএলগুলি স্ক্র্যাপড সেটটি সেট করতে চান লিঙ্কগুলি অনুসরণ করুন স্ক্র্যাপ বিকল্পগুলি থেকে কোন পৃষ্ঠা স্ক্র্যাপ বিকল্প ট্যাবে।

লক্ষ্য ওয়েবসাইট ট্যাবে বীজ URL গুলি সেট করতে, টার্গেট যোগ করুন বোতামে ক্লিক করুন তারপর সেট বীজ URL চেকবক্সটি চেক করুন এবং একটি পৃথক লাইনে স্ক্র্যাপ করার জন্য প্রতিটি URL নির্দিষ্ট করুন৷

টেম্পলেট URL থেকে বীজ URL তৈরি করুন

বিকল্প হিসাবে আপনি টেম্পলেট ইউআরএল ব্যবহার করে স্বয়ংক্রিয়ভাবে বীজ ইউআরএল উত্পন্ন করতে পারবেন, এটি একটি একক ইউআরএল যা একটি URL পরিবর্তনশীল অন্তর্ভুক্ত করে। একটি ইউআরএল ভেরিয়েবল পুনরাবৃত্ত হওয়ার জন্য বিভিন্ন সংখ্যার সীমা নির্দিষ্ট করে।

শুরুর সংখ্যাটি এমন একটি নম্বর যা ইউআরএল ভেরিয়েবলের গণনা শুরু করা উচিত, সমাপ্ত নম্বরটি এমন একটি নম্বর যা ইউআরএল ভেরিয়েবল গণনা বন্ধ করবে, পুনরাবৃত্ত সংখ্যাটি এমন একটি সংখ্যা যা ইউআরএল ভেরিয়েবলের প্রতিটি পুনরাবৃত্তির জন্য সংখ্যাটি বাড়বে will

উদাহরণস্বরূপ নীচের টেম্পলেট ইউআরএল http://www.example.com/search?pageNo=

এরপরে নিম্নলিখিত বীজের ইউআরএল তৈরি করা হবে:

সম্পাদন পোস্ট

ইউআরএল যেমন পোস্টের জন্য লগইন ফর্মের জন্য পরামিতিগুলির সাথে একটি URL নির্দিষ্ট করে। তা করতে লক্ষ্য URL টি পাঠ্য বাক্সে ফর্ম URL নির্দিষ্ট করুন এবং প্রয়োজনীয় পোস্ট প্যারামিটারগুলি যুক্ত করুন। ভেরিয়েবলের পোস্টের মানগুলিতে বিশেষ গ্র্যাবজিট ভেরিয়েবলগুলিও অন্তর্ভুক্ত থাকতে পারে যেমন:

স্ক্র্যাপ নির্দেশাবলী

স্ক্র্যাপের নির্দেশাবলী লক্ষ্য স্ক্র্যাপিংয়ের স্ক্র্যাপ করার সময় কী কী পদক্ষেপ নেওয়া উচিত তা ওয়েব স্ক্র্যাপকে বলে। স্ক্র্যাপ নির্দেশিকা ট্যাব স্ক্র্যাপ উইজার্ডটি ডিফল্টরূপে দেখায় যা আপনার প্রয়োজনীয় স্ক্র্যাপ নির্দেশাবলী যুক্ত করা সহজ করে তোলে। এই উইজার্ডটি ব্যবহারের একটি ভাল উদাহরণটি পণ্য তালিকা এবং বিশদ স্ক্র্যাপিং টিউটোরিয়াল.

একবার আপনি স্ক্র্যাপিং শুরু করতে প্রস্তুত টিপুন নতুন স্ক্র্যাপ নির্দেশ যুক্ত করুন লিঙ্ক।

এটি উইজার্ডটি খুলবে এবং স্বয়ংক্রিয়ভাবে লক্ষ্য URLটি লোড করবে, আপনাকে যা স্ক্র্যাপ করতে হবে তা অবিলম্বে নির্বাচনের অনুমতি দেয়। যদি কোনও ওয়েবপৃষ্ঠা বা পিডিএফ ডকুমেন্ট লোড করা থাকে তবে আপনি যে কোনও লিঙ্কে ক্লিক করতে পারেন এবং এটি স্বাভাবিক হিসাবে কাজ করবে, উদাহরণস্বরূপ অন্য ওয়েবপৃষ্ঠায় নেভিগেশন। আপনি এই পোটিতে স্ক্রিনের নীচে, ক্রিয়াগুলির মধ্যে একটি চয়ন না করা পর্যন্তint সামগ্রীটির যে কোনও ক্লিক আপনি এক্সট্রাক্ট করতে বা হেরফের করতে চান এমন HTML উপাদান নির্বাচন করবে।

স্ক্র্যাপের নির্দেশাবলীর বিষয়ে প্রথম জিনিসটি বুঝতে হবে যে তারা প্রতিটি ওয়েব পৃষ্ঠায় ডিফল্টরূপে কার্যকর করা হয়। এটি বন্ধ করার উপায় হ'ল টেমপ্লেট ব্যবহারের মাধ্যমে। কোনও লিঙ্কে ক্লিক করার মতো কোনও ক্রিয়াকলাপ করার সময় একটি টেম্পলেট নির্ধারিত হতে পারে এবং যাতে যখনই স্ক্র্যাপার সেই লিঙ্কটিতে যায় বা সেই বোতামটি ক্লিক করে তখন তা সনাক্ত করতে পারে যে এটি নির্ধারিত টেম্পলেটটির অন্তর্ভুক্ত। এটি বিভিন্ন পৃষ্ঠার প্রকারকে সংজ্ঞায়িত করার অনুমতি দেয়। উদাহরণস্বরূপ আপনার কাছে এমন একটি পণ্য বিভাগের পৃষ্ঠা থাকতে পারে যাতে কিছু সংক্ষিপ্তসার তথ্য এবং তারপরে পণ্য সম্পর্কিত তথ্য সহ একটি বিশদ পৃষ্ঠা রয়েছে। উভয় পৃষ্ঠার সম্ভবত বিভিন্ন স্ক্র্যাপ নির্দেশাবলীর একটি পৃথক সেট প্রয়োজন হবে।

স্ক্র্যাপ টেম্পলেট

শুরু করতে বেছে নিন ক্লিক ক্রিয়া, তারপরে আপনি একবার ক্রিয়া সম্পাদন করতে এবং আইটেমটি ক্লিক করতে চাইলে আইটেমগুলি নির্বাচন করুন পরবর্তী বোতামটিতে টেমপ্লেটের নাম লিখুন একটি টেম্পলেট তৈরি করুন পাঠ্য বাক্স এখনই যখনই স্ক্র্যাপার এই ক্রিয়াকলাপগুলি কার্যকর করে, ফিরে আসা টেম্পলেটটি আপনার সরবরাহ করা নাম হবে।

তারপরে কোনও স্ক্র্যাপের নির্দেশকে একটি নির্দিষ্ট টেম্পলেট বরাদ্দ করার জন্য আপনাকে এক্সিকিউট ইন ড্রপ ডাউন তালিকা, যা স্ক্র্যাপ নির্দেশ যুক্ত হওয়ার ঠিক আগে উপস্থিত হওয়া অপশন উইন্ডোতে উপস্থিত হয়। টেমপ্লেট নির্বাচন করার সময় তিনটি প্রধান বিকল্প হ'ল:

আপনি একবার এই বিকল্পগুলির মধ্যে একটি নির্বাচন করে নিলে স্ক্র্যাপ নির্দেশ কেবল নির্দিষ্ট টেম্পলেটটিতেই কার্যকর করা হবে।

তথ্য আহরণ করা হচ্ছে

আপনি লক্ষ্য করবেন যে আপনি যখন নির্বাচন করেন ডেটা এক্সট্রাক্ট করুন কর্ম. স্ক্রিনের নীচে বাম দিকের কোণটি আপনাকে উপরের উইন্ডোতে একটি এইচটিএমএল উপাদান নির্বাচন করতে বা একটি বিশ্বব্যাপী পৃষ্ঠা সম্পত্তি চয়ন করার জন্য আমন্ত্রণ জানিয়েছে।

বিশ্বব্যাপী পৃষ্ঠার বৈশিষ্ট্যটি ব্যবহার করতে, ক্লিক করুন বিশ্বব্যাপী পৃষ্ঠা সম্পত্তি লিঙ্ক তারপরে আপনি চালিয়ে যেতে চান তা নিশ্চিত করুন। আপনার এখন বৈশিষ্ট্যগুলির একটি তালিকা থাকবে যা পৃষ্ঠাটি থেকে সরাসরি সরানো যেতে পারে। উদাহরণস্বরূপ: পৃষ্ঠা শিরোনাম।

একটি চয়ন করতে, কেবল বিকল্পগুলির তালিকা থেকে এটি নির্বাচন করুন এবং ক্লিক করুন পরবর্তী ডেটা যোগ করতে ডেটা সেটটি.

আপনি যদি পুরো পৃষ্ঠায় অন্তর্ভুক্ত না করে নির্দিষ্ট HTML উপাদানগুলিতে ডেটা আহরণ করতে চান তবে আপনাকে সংশ্লিষ্ট HTML উপাদানগুলিতে ক্লিক করতে হবে, আপনি একক বা একাধিক আইটেম নির্বাচন করতে পারেন। তবে আপনি যদি একাধিক আইটেম নির্বাচন করছেন তবে দয়া করে চেষ্টা করুন এবং একাধিক আইটেমগুলি নির্বাচন করুন যা কলামে একাধিক সারিগুলির মতো একই, কারণ যদি স্ক্র্যাপার কোনও নিয়ম তৈরি করতে না পারে যা অনন্যভাবে ডেটার নির্বাচিত সংগ্রহকে সনাক্ত করতে পারে তবে স্ক্র্যাপের নির্দেশনা হ'ল না তৈরি হতে সক্ষম হতে। তদুপরি আপনি যদি ক্লিক করছেন এমন একাধিক আইটেমগুলিকে আমাদের ওয়েব স্ক্র্যাপার উইজার্ড দ্বারা পুনরাবৃত্তি তথ্য হিসাবে চিহ্নিত করা হয়েছে, তবে একই গ্রুপে সমস্ত পুনরাবৃত্তি তথ্য স্বয়ংক্রিয়ভাবে নির্বাচিত হবে be আপনি একবার আপনার সমস্ত একক বা একাধিক আইটেম নির্বাচন করলে স্ক্রিনের নীচে বাম থেকে নিষ্কাশনের জন্য একটি বৈশিষ্ট্য চয়ন করুন এবং তারপরে ক্লিক করুন পরবর্তী.

একটি ডেটাসেট তৈরি করা হচ্ছে

ডেটাसेट পর্দা আপনাকে কীভাবে ডেটা প্রক্রিয়াজাত করা যায় তা পরিবর্তনের অনুমতি দেয়, উদাহরণস্বরূপ আপনি এটির মধ্যে ডেটাসেট এবং কলামগুলির নাম পরিবর্তন করতে পারেন, নামটির জন্য নামটিতে ক্লিক করুন। আপনি যখন একটি ডেটাসেটে একটি কলাম যুক্ত করবেন তখন আপনাকে যে টেম্পলেটটি প্রয়োগ করা উচিত তা চয়ন করতে হবে the কলামের নীচে অবস্থিত ড্রপ ডাউন তালিকায় ক্লিক করে আপনি এটি পরিবর্তন করতে পারেন।

প্রায়শই ডেটা বের করার সময়, কিছু পুনরাবৃত্তি আইটেমগুলিতে অসামঞ্জস্যভাবে পুনরাবৃত্তি করা সাধারণ, সঠিক সারিগুলি এখনও একে অপরের সাথে যুক্ত রয়েছে তা নিশ্চিত করার জন্য লিঙ্ক কলাম মানদণ্ড, ডেটাসেটের সর্বাধিক ধারাবাহিক কলামের সাথে বেমানান কলামগুলিকে লিঙ্ক করতে।

ডেটাসেটে আরও ডেটা যুক্ত করতে ক্লিক করুন বোতাম বা ক্লিক করুন ডেটাसेट থেকে ডেটা অপসারণ করতে, বা পুরো ডেটাसेट মুছে ফেলতে। ডেটাসেটটি ডেটাতে বিভিন্ন মানদণ্ড প্রয়োগ করার অনুমতি দেয়, এটি শীর্ষ থেকে পছন্দসই ক্রিয়াটি নির্বাচন করুন এবং তারপরে মানদণ্ড প্রয়োগের জন্য প্রাসঙ্গিক কলামে ক্লিক করুন। আপনি যদি মানদণ্ড যুক্ত করে ভুল করেন তবে ক্লিক করুন বোতাম.

বিভিন্ন মানদণ্ডের ধরণের তালিকা এবং সেগুলি কীভাবে ব্যবহার করবেন তা এখানে রয়েছে:

আপনি যখন উপরোক্ত ক্রিয়াকলাপগুলির মধ্যে একটি নির্বাচন করেছেন এটি যদি এটি একাধিক কলামগুলিকে প্রভাবিত করতে পারে তবে এটি আপনাকে জিজ্ঞাসা করবে যে আপনি কেবল এটি কলামগুলির বা তার সমস্তগুলির একটি উপসেটকে প্রভাবিত করতে চান কিনা। বেশিরভাগ ক্ষেত্রে আপনি এটি সমস্ত কলামকেই প্রভাবিত করতে চান তবে কিছু পরিস্থিতিতে কলামগুলি প্রভাবিত করে সীমাবদ্ধ করা কার্যকর। উদাহরণস্বরূপ, আপনি যদি একটি সিরিজ নির্বাচন করছেন লেবেল এবং মান, যা ওয়েব পৃষ্ঠাগুলিতে অবস্থান পরিবর্তন করে আপনি সমস্ত লেবেল এবং মান নির্বাচন করতে পারেন। তারপরে ডেটাসেটে এটি পছন্দসই লেবেলে সীমাবদ্ধ করতে সমান অপারেশনটি ব্যবহার করুন এবং নির্দিষ্ট করুন যে কেবলমাত্র লেবেল এবং মান কলামগুলিই প্রভাবিত হবে। এটি নিশ্চিত করবে যে অন্যান্য কলামগুলি সারিগুলি মুছে ফেলাতে প্রভাব ফেলবে না, সম্পূর্ণতার জন্য এটি লেবেল কলামটি আড়াল করতে দরকারী।

আপনি যা যা করতে চান তার মধ্যে একবার পরিবর্তন করার পরে ক্লিক করুন পরবর্তী এবং, আপনার স্ক্র্যাপ নির্দেশাবলী স্ক্র্যাপে যুক্ত করা হবে। আপনি যদি চান তবে আপনাকে আরও স্ক্র্যাপ নির্দেশাবলী যুক্ত করার বিকল্প রয়েছে।

একটি ওয়েবপেজ হস্তক্ষেপ

কোনও ওয়েবপৃষ্ঠা স্ক্র্যাপ করার আগে হেরফের করা যেতে পারে, ক্লিক করে, টাইপ করে এবং ড্রপ ডাউন থেকে মানগুলি নির্বাচন করে। এটি মনে রাখা গুরুত্বপূর্ণ যে যদিও এটি কোনও নতুন ওয়েবপৃষ্ঠায় স্ক্র্যাপ নির্দেশাবলী লোড করতে পারে তবে সমস্ত প্রযোজ্য স্ক্র্যাপ নির্দেশাবলী কার্যকর না হওয়া পর্যন্ত পুনরায় আরম্ভ হবে না।

একটি ওয়েবপৃষ্ঠা কৌশলগতভাবে যেকোন একটি বেছে নিন এলিমেন্ট ক্লিক করুন, এলিভার হোল, স্ক্রোল, টাইপ টেক্সট or ড্রপ ডাউন তালিকা মান নির্বাচন করুন কর্ম। আপনি যদি একটি ক্লিক ক্রিয়া সম্পাদন করে থাকেন তবে আপনি ওয়েবপৃষ্ঠায় যে কোনও সংখ্যক উপাদানকে ক্লিক করতে পারেন। অন্যথায় আপনাকে অবশ্যই একটি উপযুক্ত এইচটিএমএল উপাদান নির্বাচন করতে হবে, উদাহরণস্বরূপ একটি পাঠ্য বাক্সে পাঠ্য টাইপ করা উচিত। তারপর ক্লিক করুন পরবর্তী। এটি একটি বিকল্প বাক্স খুলবে যা আপনাকে অ্যাকশনটি সম্পূর্ণ করতে দেয়। পাঠ্যটি টাইপ করার সময় এবং একটি টাইপ করতে বা বেছে নেওয়ার জন্য একটি ড্রপ ডাউন থেকে নির্বাচন করার সময় যথাক্রমে চয়ন করতে হবে। তিনটি ক্রিয়াকলাপের জন্য অপশনগুলি একই।

আপনি যদি চান তবে আপনি টেমপ্লেটটি নির্বাচন করতে পারেন এই ক্রিয়াকলাপটি কার্যকর করা উচিত এবং ক্লিক ক্রিয়াকলাপটি শেষ হয়ে গেলে টেমপ্লেট কীভাবে প্রয়োগ হয় তার জন্য ক্লিক করুন। যাইহোক, ক্লিক পৃষ্ঠায় একই পৃষ্ঠায় একাধিক ক্লিক সম্পাদন করে একটি নতুন টেমপ্লেট বরাদ্দ করা ভাল ধারণা নয়, যেমন ইনলাইন পপআপগুলি খুলতে বা পর্দায় জিনিসগুলিকে প্রদর্শিত করা। এটি কারণ যদি ক্লিক ক্রিয়াটি কেবলমাত্র নির্দিষ্ট টেম্পলেটগুলিতে কার্যকর হয় তবে প্রথম ক্লিকের দ্বারা নির্ধারিত নতুন টেম্পলেটটি পুনরায় সেট করা হবে না এবং সুতরাং স্ক্র্যাপটি কীভাবে লেখা হয়েছিল তার উপর নির্ভর করে ভবিষ্যতে ক্লিকগুলি একই পৃষ্ঠাতে কার্যকর করা বন্ধ করতে পারে। আপনি যদি এই ক্রিয়াটি একবারে সম্পাদন করতে চান তবে আপনি সংজ্ঞাও দিতে পারেন, আপনি যদি লগইনের মতো কিছু করে থাকেন তবে তা কার্যকর intওএ ওয়েবসাইট।

প্রকার পাঠ্য বা নির্বাচন করুন ড্রপ ডাউন তালিকা মান ক্রিয়াগুলি আপনাকে যথাক্রমে পাঠ্যের একাধিক আইটেম টাইপ করতে বা একাধিক নির্বাচন বাক্স নির্বাচন করতে দেয়। এগুলি স্ক্র্যাপ নির্দেশাবলী ক্লিক করে সম্পাদনা করা যেতে পারে পরিবর্তনীয় পরিবর্তন বা দেখুন বাম স্ক্রিনশটে প্রদর্শিত হিসাবে বোতাম।

উদাহরণস্বরূপ, আপনি যদি কোনও অনুসন্ধান বাক্সে নামের একটি তালিকা টাইপ করতে চান তবে এটি গুরুত্বপূর্ণ হতে পারে। অনুসন্ধান বাক্সে যখন কোনও মান থাকে তখনই কোনও ফর্ম জমা দেওয়া হয় তা নিশ্চিত করার জন্য পাঠ্য সাফল্যের সাথে টাইপ করা প্রতিটি সময় একটি টেম্পলেট সেট করা যেতে পারে into এই টেমপ্লেটটি সেট না করা থাকলে পাঠ্যবক্স এবং একটি বোতামের ক্লিক ক্রিয়া সম্পাদিত হবে না। ক্লিক অ্যাকশনটি সম্পাদন করার পরে প্রক্রিয়াটি পুনরায় সেট করার জন্য টেমপ্লেটটিকে অন্য কোনও কিছুর পরিবর্তিত করা দরকার।

ওয়েবসাইটগুলি চালিত করে এমন ক্রিয়াকলাপগুলি কার্যকর করার পরে, ক্রিয়াগুলি ক্রমাগত চালিয়ে যাওয়ার আগে AJAX সামগ্রীটি লোড করার অনুমতি দেওয়ার জন্য যদি ক্রিয়াগুলি AJAX কার্যকারিতা শুরু করে তবে কিছুক্ষণ অপেক্ষা করা কার্যকর। আপনি এই ক্ষেত্রে একটি বিলম্ব যোগ করে এটি করতে পারেন এক্সিকিউশন পরে অপেক্ষা করুন টেক্সট বক্স।

কিছু শর্ত পূরণ হয়ে গেলে আপনি সরাসরি আলাদা ইউআরএল-এ যেতে চান। এটি ব্যবহার করতে URL এ যান অ্যাকশন, যা কেবল তখনই উপস্থিত হবে যখন কমপক্ষে একটি টেম্পলেট স্ক্র্যাপে সংজ্ঞায়িত করা হয়েছে এবং যখন তৈরি করা হবে তখন কোনও টেম্পলেটকে বরাদ্দ করতে হবে, অসীম লুপগুলি এড়াতে সহায়তা করতে।

অবশেষে আপনি গ্র্যাবসআইটি'র ক্যাপচার এপিআইয়ের সমস্ত আপনার ওয়েব স্ক্র্যাপগুলিতে ব্যবহার করতে পারেন, কেবল ক্যাপচার ওয়েবপেজ ক্রিয়াটি চয়ন করুন এবং আপনার পছন্দসই ক্যাপচারটি চয়ন করুন choose আপনি একবার নির্বাচন করলে এটি কার্যকর করতে কোনও টেম্পলেট নির্দিষ্ট করে স্ক্র্যাপের মধ্যে নির্দিষ্ট ওয়েব পৃষ্ঠাগুলি ক্যাপচার করতে সীমাবদ্ধ করতে পারেন পরবর্তী বোতাম.

প্রতিটি স্ক্র্যাপ নির্দেশ যুক্ত হওয়ার পরে এটি স্ক্র্যাপ নির্দেশিকা প্যানেলে দেখা যাবে, প্রতিটি স্ক্র্যাপের নির্দেশের পাশের ক্রসটি স্ক্র্যাপ নির্দেশকে মোছার অনুমতি দেয়। যদি স্ক্র্যাপের কোনও নির্দেশনা মুছে ফেলা হয় যা অন্যান্য স্ক্র্যাপ নির্দেশাবলীর দ্বারা প্রয়োজনীয় হয় তবে সেই নির্দেশাবলীও মুছে ফেলা হয়। আপনি দখল আইকন দিয়ে কোনও স্ক্র্যাপ নির্দেশাবলী টেনে স্ক্র্যাপ নির্দেশাবলীর ক্রম পরিবর্তন করতে পারেন।

স্ক্র্যাপের নির্দেশাবলী ম্যানুয়ালি লিখছি

আপনার যদি স্ক্র্যাপ নির্দেশিকাগুলি আরও নির্দিষ্ট উপায়ে কাস্টমাইজ করতে হয় তবে আপনাকে স্ক্র্যাপ নির্দেশাবলী ম্যানুয়ালি পরিবর্তন করতে হবে।

স্ক্র্যাপের নির্দেশাবলী জাভাস্ক্রিপ্ট ভিত্তিক এবং কোড এডিটরটি একটি সিনট্যাক্স পরীক্ষক, স্বয়ংক্রিয়-সম্পূর্ণ এবং টুলটিপ যতটা সম্ভব সহজ করার জন্য সম্পূর্ণ আসে।

ওয়েব স্ক্র্যাপার নির্দেশাবলী কোড সম্পাদকের মূল কার্যকারিতা মেনু বিকল্পগুলির মাধ্যমে অ্যাক্সেসযোগ্য, যা স্ক্রিনশটে দেখানো হয়েছে, প্রতিটিটির উদ্দেশ্য নীচে আলাদাভাবে ব্যাখ্যা করা হয়েছে। আপনার স্ক্র্যাপের নির্দেশাবলীতে যে কোনও সিনট্যাক্স ত্রুটি কোড সম্পাদকের বাম হাতের নালীতে নির্দেশিত হয়েছে।

জাদুকর উইজার্ডটি আপনাকে পৃষ্ঠার অংশগুলি নির্বাচন করতে দেয় যা আপনি এক্সট্র্যাক্ট নিতে চান এবং ওয়েব ক্যাপচারগুলি তৈরি করার মতো অন্যান্য সাধারণ কাজগুলি করতে চান।

স্ক্র্যাপ নির্দেশাবলী প্রদর্শন করুন ব্যবহারকারীর কাছে স্ক্র্যাপ নির্দেশিকা কোড প্রদর্শন করে।

সমস্ত নির্দেশ মুছুন সমস্ত স্ক্র্যাপ নির্দেশাবলী মুছে দেয়।

ওয়েবপেজ ফাংশন পৃষ্ঠা কীওয়ার্ডটি প্রবেশ করবে into স্ক্র্যাপের নির্দেশাবলী এবং স্বয়ংক্রিয় সম্পূর্ণ খুলুন, এতে সমস্ত সম্ভাব্য রয়েছে পৃষ্ঠা ফাংশন। পৃষ্ঠা ফাংশনগুলি আপনাকে ওয়েব পৃষ্ঠা থেকে ডেটা উত্তোলনের অনুমতি দেয়।

ডেটা ফাংশন ডেটা কীওয়ার্ড প্রবেশ করবে intহে স্ক্র্যাপ নির্দেশাবলী। ডেটা ফাংশন আপনাকে অনুমতি দেয় save তথ্য।

নেভিগেশন ফাংশন নেভিগেশন কীওয়ার্ড প্রবেশ করে intও কোড সম্পাদক। দ্য নেভিগেশন ফাংশন কীভাবে ওয়েব স্ক্র্যাপার লক্ষ্যবস্তু ওয়েবসাইটটি নেভিগেট করে তা নিয়ন্ত্রণ করতে দেয়।

গ্লোবাল ফাংশন গ্লোবাল কীওয়ার্ড প্রবেশ করে intহে স্ক্র্যাপ নির্দেশাবলী। এটি আপনাকে অ্যাক্সেস দেয় ক্রিয়াকলাপ যা বিভিন্ন ওয়েব পৃষ্ঠাগুলি পার্স করার মধ্যে ডেটা সংরক্ষণ করতে পারে। স্ক্র্যাপ নির্দেশাবলী লেখার সময় এটি মনে রাখা জরুরী যে স্ক্র্যাপ নির্দেশাবলীর মধ্যে জাভাস্ক্রিপ্ট ভেরিয়েবলের অবস্থা যখন ওয়েব পৃষ্ঠাগুলির মধ্যে স্ক্র্যাপার স্থানান্তরিত হয় তখন তা রাখা হয় না, যদি না আপনি গ্লোবাল ফাংশন ব্যবহার করেন save ভেরিয়েবল, নীচে প্রদর্শিত হিসাবে।

Global.set("myvariable", "hello");
var mrvar = Global.get("myvariable");

গ্লোবাল.সেট পদ্ধতিতে অবিচলিত প্যারামিটারের সাথে একটানা গ্লোবাল ভেরিয়েবল পাসটি তৈরি করতে নীচের মত দেখাচ্ছে।

Global.set("myvariable", "hello", true);

ইউটিলিটি ফাংশন ইউটিলিটি কীওয়ার্ড প্রবেশ করে intহে স্ক্র্যাপ নির্দেশাবলী। এটি আপনাকে ব্যবহার করতে দেয় সাধারণ ফাংশন যা স্ক্র্যাপগুলি লেখাকে সহজ করে তোলে যেমন কোয়েরি যুক্ত করা বা মুছে ফেলার মতোstring ইউআরএল থেকে পরামিতি।

মানদণ্ড কার্যাদি মানদণ্ড কীওয়ার্ড প্রবেশ করে intহে স্ক্র্যাপ নির্দেশাবলী। এইগুলো ক্রিয়াকলাপ আপনাকে আপনার স্ক্র্যাপের সময় নিষ্কাশিত ডেটা যেমন: ডুপ্লিকেটগুলি মুছে ফেলার অনুমতি দেয়।

ফিল্টার আপনাকে সহজেই একটি ফিল্টার তৈরি করতে দেয়, এটি একটি ওয়েব পৃষ্ঠার মধ্য থেকে একটি নির্দিষ্ট এইচটিএমএল উপাদান নির্বাচন করার জন্য কিছু ফাংশন দ্বারা প্রয়োজনীয়। আপনার লক্ষ্য উপাদানটি থাকা উচিত এবং / অথবা উপাদানটির পিতামাতার (গুলি) সেই উপাদানটি নির্বাচন করতে হবে কেবল তা নির্বাচন করুন। নিশ্চিত করুন যে আপনি এই বিকল্পটি ক্লিক করার আগে আপনার কার্সারটিও ফিল্টারটি পাস করার জন্য ফাংশনে সঠিক জায়গায় রয়েছে।

স্ক্রিনশট ফাংশন আপনাকে স্ক্রিনশট বিকল্পগুলি সেট করতে দেয়। টুলটিপ দ্বারা চিহ্নিত হিসাবে ফাংশনের সঠিক অংশে কেবল কার্সারটি রাখুন এবং স্ক্রিনশট বিকল্পগুলি টিপুন। তারপরে আপনি চান সমস্ত অপশন বেছে নিন এবং কমান্ডটি সন্নিবেশ করুন।

Strings

Stringপাঠ্যকে সংজ্ঞায়িত করতে কোনও ওয়েব স্ক্র্যাপ করার সময় স্ক্র্যাপ নির্দেশিকায় ব্যবহৃত হয়। একজন string দ্বিগুণ দ্বারা সীমিত করা হয় (") বা একক উদ্ধৃতি (')। যদি একটি string এটি একটি ডাবল উদ্ধৃতি দিয়ে শুরু হয় এটি অবশ্যই একটি ডাবল উদ্ধৃতি দিয়ে শেষ করা উচিত, যদি ক string এটি একটি একক উদ্ধৃতি দিয়ে শুরু হয় এটি অবশ্যই একক উদ্ধৃতি দিয়ে শেষ হবে। এই ক্ষেত্রে:

"my-class" এবং 'my-class'

একটি সাধারণ ত্রুটি যা ঘটতে পারে তা হ'ল বন্ধ string ত্রুটি, এটি যখন একটি string উপরে প্রদর্শিত হিসাবে একটি সমাপনী উদ্ধৃতি নেই বা এর মধ্যে একটি লাইন ব্রেক রয়েছে string। নিম্নলিখিত অবৈধ হয় strings:

"my
class"

"my class

এই ত্রুটিটি ঠিক করার জন্য এটি নিশ্চিত করা হয় যে তারা লাইন বিরতি না রাখে এবং মেলানো কোটগুলি যেমন রাখে না:

"my class" এবং "my class"

কখনও কখনও আপনি একটিতে একক বা ডাবল উদ্ধৃতি উপস্থিত হতে চান string। এটির সবচেয়ে সহজ উপায় হ'ল একটিতে একটি একক উক্তি রাখা string ডাবল উদ্ধৃতি এবং একটিতে একটি ডাবল উদ্ধৃতি দিয়ে সীমিত string একক উদ্ধৃতি দিয়ে সীমিত, যেমন:

"Bob's shop" এবং '"The best store on the web"'

বিকল্পভাবে আপনি এর মতো একটি উদ্ধৃতি থেকে বাঁচতে ব্যাকস্ল্যাশ ব্যবহার করতে পারেন:

'test\'s'

সাধারণ ম্যানুয়াল স্ক্র্যাপ কার্যগুলি

লিঙ্ক পরীক্ষক একটি কাস্টম লিঙ্ক পরীক্ষক তৈরি করুন - কীভাবে এই সাধারণ নির্দেশাবলী অনুসরণ করে কাস্টম লিঙ্ক চেকার তৈরি করবেন তা সন্ধান করুন।
চিত্র ডাউনলোড একটি ওয়েবসাইট থেকে সমস্ত চিত্র ডাউনলোড করুন - কোনও সম্পূর্ণ ওয়েবসাইট থেকে সমস্ত চিত্র কীভাবে ডাউনলোড করবেন তা সন্ধান করুন।
ডেটাসেট তৈরি করুন ডেটা বের করুন এবং এটি রূপান্তর করুন intওএ ডাটাসেট - আপনি যে ওয়েবসাইটটি স্ক্র্যাপ করছেন তা থেকে কীভাবে ডেটাসেট তৈরি করবেন তা সন্ধান করুন।
লিংকগুলি বের করুন কোনও ওয়েবসাইট থেকে লিঙ্কগুলি বের করুন - কীভাবে কোনও সম্পূর্ণ ওয়েবসাইট থেকে সমস্ত HTML লিঙ্কগুলি নিষ্কাশন করতে হয় তা সন্ধান করুন save আপনি চান ফর্ম্যাট এ।
পাঠ্য নির্বাচন করুন নিদর্শন ব্যবহার করে পাঠ্য থেকে মান আহরণ করা - পাঠ্যের ব্লকগুলি থেকে মানগুলি বের করতে কীভাবে নিদর্শনগুলি ব্যবহার করতে হয় তা সন্ধান করুন।
OCR করুন চিত্রগুলি থেকে পাঠ্য বের করুন - কীভাবে চিত্রের মধ্যে থাকা পাঠ্য নিষ্কাশন করবেন তা সন্ধান করুন।
ডেটা সেটটি কিভাবে একটি ডেটাসেট প্যাড - প্যাডিং ব্যবহার করে আপনার উত্তোলিত ডেটা আরও ভাল ফর্ম্যাট করুন।
বিন্যাস অ্যারে পরিচালনা - স্ক্র্যাপগুলির মধ্যে সহজে অ্যারে পরিচালনা করতে কীভাবে বিশেষ অ্যারে ইউটিলিটি পদ্ধতি ব্যবহার করবেন তা সন্ধান করুন।
কর্ম স্ক্র্যাপের সময় একবারে কোনও ক্রিয়া সম্পাদন করুন - পুরো স্ক্র্যাপের সময় একবারে কীভাবে কোনও ক্রিয়া সম্পাদন করা যায় তা সন্ধান করুন।
পরিশোধন করা স্ক্র্যাপড ডেটা পরিমার্জন - কীভাবে আপনার স্ক্র্যাপগুলি থেকে অ-প্রয়োজনীয় ডেটা সরিয়ে ফেলতে হবে তা আবিষ্কার করুন।
ই-মেইল ঠিকানা কোনও ওয়েবসাইট থেকে ইমেল ঠিকানাগুলি স্ক্র্যাপ করুন - কোনও ওয়েবসাইট থেকে সমস্ত ইমেল ঠিকানা কীভাবে স্ক্র্যাপ করবেন তা সন্ধান করুন।
স্ক্রিনশট স্ক্রিনশট পুরো ওয়েবসাইট into পিডিএফ বা ছবি - একটি সম্পূর্ণ ওয়েবসাইটের প্রতিটি পৃষ্ঠা ক্যাপচার করতে কীভাবে গ্র্যাবিজিট'র ওয়েব স্ক্র্যাপার ব্যবহার করবেন তা সন্ধান করুন।
স্ক্রিনশট কাঠামোগত কাঠামোগত স্ট্রাকচার্ড তথ্য বের করুন - অনুভূতি, নাম, অবস্থান এবং সংস্থাগুলি নিষ্কাশন করতে GrabzIt ব্যবহার করুন।

এইচটিএমএল ব্যতীত অন্যান্য সামগ্রী স্ক্র্যাপিং ping

ওয়েব স্ক্র্যাপার যখন পিডিএফ, এক্সএমএল, জেএসওএন এবং আরএসএস জুড়ে আসে তখন এটি এটিকে একটি এইচটিএমএল অনুমানের মধ্যে রূপান্তরিত করে, যা আমাদের ওয়েব স্ক্র্যাপারটিকে সঠিকভাবে পার্স করতে দেয় এবং আপনি কোন সামগ্রীটি বের করতে চান তা নির্বাচন করতে পারবেন। উদাহরণস্বরূপ, আপনি যদি JSON ডেটা পার্স করতে চান তবে এটি ডেটা রূপান্তর করবে intওএ হায়ারারচাল এইচটিএমএল প্রতিনিধিত্ব পাশ হিসাবে প্রদর্শিত হয়। এটি আপনাকে সাধারণ হিসাবে স্ক্র্যাপ নির্দেশাবলী তৈরি করতে দেয়।

অনুরূপভাবে যখন স্ক্র্যাপার একটি পিডিএফ ডকুমেন্ট লোড করে, পিডিএফ রূপান্তরিত হয় into চিত্রগুলি, হাইপারলিঙ্কস, পাঠ্য এবং সারণীগুলি নির্বাচন করতে এবং স্ক্র্যাপ করার অনুমতি দেওয়ার জন্য এইচটিএমএল। তবে পিডিএফের কোনও আসল কাঠামো না থাকায় টেবিলগুলি হিউরিস্টিক্স ব্যবহার করে সনাক্ত করা হয় এবং তাই সর্বদা নির্ভুল হয় না।

রফতানির বিকল্প

এই ট্যাবটি আপনাকে কীভাবে আপনার ফলাফলগুলি এক্সেল স্প্রেডশিট, এক্সএমএল, জেএসএন, সিএসভি, এসকিউএল কমান্ড, বা এইচটিএমএল নথি সহ আপনার বিকল্পগুলি রফতানি করতে চান তা চয়ন করতে সহায়তা করে allows অতিরিক্তভাবে, এই ট্যাবটি জিপড স্ক্র্যাপের ফলাফলগুলি সেট করার অনুমতি দেয়। আপনি যদি কেবল ফাইলগুলি ডাউনলোড করছেন বা ওয়েব ক্যাপচারগুলি তৈরি করছেন তবে রফতানির বিকল্প চয়ন করার দরকার নেই কারণ আপনি কেবলমাত্র একটি জিপ ফাইল পাবেন যাতে ফলাফল থাকবে। আপনি কীভাবে ফলাফল প্রেরণ করতে চান তা নির্দিষ্ট করতে এই ট্যাবটি আপনাকে অনুমতি দেয়। এর মাধ্যমে ফলাফল পাঠাতে পারেন আমাজন S3, ড্রপবক্স, ইমেলের বিজ্ঞপ্তি, FTP- র এবং অম্রো.

চূড়ান্ত বিকল্পটি একটি কলব্যাক ইউআরএল, যা আমাদের ব্যবহার করে স্ক্র্যাপের ফলাফলগুলি আপনার অ্যাপ্লিকেশনটিতে প্রক্রিয়া করার অনুমতি দেয় স্ক্র্যাপ এপিআই.

জিপড ফলাফলগুলির ফাইলের নাম বা প্রতিটি ডেটা ফাইল আপনি যদি তাদের আলাদাভাবে প্রেরণের জন্য অনুরোধ করেন তবে ডিফল্ট ফাইল নাম ব্যবহার করুন বিকল্পটি চেক করে এবং আপনার পছন্দসই ফাইল নামটি সেট করে সেট করা যেতে পারে। অতিরিক্তভাবে, একটি টাইমস্ট্যাম্প রেখে আপনার ফাইলনামে যুক্ত করা যায় {GrabzIt_Timestamp_UTC+1} ফাইলের নাম। +1 ইউটিসি থেকে কয়েক ঘন্টার মধ্যে অফসেটটিকে বোঝায়।

আপনি ক্লিক করে স্ক্র্যাপের ফলাফলগুলি দেখতেও পারেন ফলাফল দেখুন বোতাম, পাশে তোমার স্ক্র্যাপ, এটি যে কোনও রিয়েল-টাইম স্ক্র্যাপের ফলাফলগুলি দেখাবে, সেই সাথে গত 48 ঘন্টার মধ্যে সম্পন্ন পূর্ববর্তী ফলাফলগুলি।

তফসিল স্ক্র্যাপ

একটি ওয়েব স্ক্র্যাপ তৈরি করার সময় সময়সূচী স্ক্র্যাপ ট্যাব আপনাকে সেট করতে দেয় যখন আপনি স্ক্র্যাপটি শুরু করতে চান এবং আপনি যদি এটি পুনরাবৃত্তি করতে চান তবে এটি কত ঘন ঘন করা উচিত। স্ক্র্যাপটি চালানোর জন্য কনফিগার করা যেতে পারে যখন একটি ওয়েব পৃষ্ঠায় একটি পরিবর্তন সনাক্ত করা হয়। এটা করতে একটি ওয়েব পৃষ্ঠা পরিবর্তন হলে শুরু করুন চেকবক্স, তারপর নিরীক্ষণ করার জন্য ওয়েব পৃষ্ঠার URL লিখুন, সঙ্গে সিএসএস নির্বাচক আপনি যে পৃষ্ঠার অংশ interested in. অসঙ্গত পরিবর্তনের কারণে মিথ্যা ইতিবাচক এড়াতে পৃষ্ঠার একটি ছোট অংশ নির্বাচন করা গুরুত্বপূর্ণ।

নজরদারি এবং ডিবাগিং স্ক্র্যাপগুলি

একবার ওয়েব স্ক্র্যাপ শুরু হয়ে গেলে স্থিতি আইকনটিতে পরিবর্তিত হবে এবং প্রক্রিয়াজাত পৃষ্ঠাগুলি সময়ের সাথে সাথে বৃদ্ধি শুরু করবে। স্ক্র্যাপগুলির অগ্রগতির একটি আসল সময়ের স্ন্যাপশট নিয়মিতভাবে শেষ ওয়েব পৃষ্ঠার নিয়মিত স্ক্রিনশট সহ স্ক্র্যাপের মুখোমুখি হওয়া একটি লগ ফাইল তৈরি করা হয়। এটি আপনাকে স্ক্র্যাপের সময় কী হচ্ছে তা দেখতে দেয়। এই তথ্যটি খুঁজতে, আপনার স্ক্র্যাপের পাশের প্রসারিত আইকনে ক্লিক করুন এবং ক্লিক করুন দর্শক আপনি স্ক্র্যাপ জন্য intআগ্রহী। আপনার স্ক্র্যাপের নির্দেশাবলীতে কোনও সমস্যা আছে যেমন সমস্যা আছে কিনা তা বিশদ করা উচিত।

স্ক্র্যাপ সফলভাবে শেষ হয়ে গেলে স্থিতি আইকনটি স্যুইচ হবে , যদি ভিউয়ারটি খোলার দ্বারা কোনও ফলাফল না পাওয়া যায় তবে লগ এবং শেষ স্ক্রিনশট আপনাকে ভুল হতে পারে বলে দিতে পারে।

লগগুলিতে জানানো সবচেয়ে সাধারণ সমস্যাগুলির মধ্যে একটি এটি হল যে পৃষ্ঠাটি স্ক্র্যাপ করতে পর্যাপ্ত পরিমাণে বিলম্ব হতে পারে না, প্রায়শই এতে একটি ছোট্ট বৃদ্ধি ঘটে পৃষ্ঠা লোড বিলম্ব পাওয়া যায় স্ক্র্যাপের বিকল্পগুলি ট্যাব বেশিরভাগ ওয়েবসাইটের জন্য যথেষ্ট।