ওয়েব ক্যাপচার এবং রূপান্তর করার সরঞ্জামসমূহ

ওয়েব স্ক্র্যাপার ডকুমেন্টেশন

ওয়েব স্ক্র্যাপ তৈরি করতে আপনাকে নীচের ট্যাবগুলিতে ছড়িয়ে থাকা পাঁচ ধরণের তথ্য নির্দিষ্ট করতে হবে।

  1. স্ক্র্যাপের বিকল্পগুলি
  2. লক্ষ্য ওয়েবসাইটগুলি
  3. স্ক্র্যাপ নির্দেশাবলী
  4. রফতানির বিকল্প
  5. তফসিল স্ক্র্যাপ

স্ক্র্যাপের বিকল্পগুলি

স্ক্র্যাপ বিকল্প ট্যাবে ওয়েব স্ক্র্যাপ কাস্টমাইজ করতে নীচের সমস্ত বৈশিষ্ট্য উপলব্ধ।

স্ক্র্যাপের নাম স্ক্র্যাপের নাম।

লিঙ্কগুলি অনুসরণ করুন স্ক্র্যাপার লিঙ্কগুলি কীভাবে অনুসরণ করা উচিত সে সম্পর্কে নিম্নলিখিত বিকল্পগুলি সরবরাহ করে:

  • প্রয়োজনীয় হিসাবে - ডিফল্ট সেটিংস এবং নিরাপদ বিকল্প, এটি স্ক্র্যাপারকে কেবলমাত্র সেই লিঙ্কগুলি অনুসরণ করবে যা এটির নির্দেশিত
  • সমস্ত পৃষ্ঠা - স্ক্র্যাপার এটি খুঁজে পাওয়া প্রতিটি লিঙ্ক অনুসরণ করবে
  • প্রথম পৃষ্ঠা - লক্ষ্য হিসাবে নির্দিষ্ট করা প্রথম পৃষ্ঠায় পাওয়া লিঙ্কগুলি অনুসরণ করুন
  • পর্যন্ত n প্রাথমিক পৃষ্ঠা থেকে পৃষ্ঠাগুলি - প্রথম পৃষ্ঠায় কেবলমাত্র ক্লিকের নির্দিষ্ট সংখ্যক পৃষ্ঠাগুলিতে লিঙ্কগুলি অনুসরণ করুন
  • ফ্রেমে - ফ্রেম এবং আইফ্রেমে পাওয়া লিঙ্কগুলি অনুসরণ করুন

Robots.txt ফাইল উপেক্ষা করুন যদি সেট করা থাকে তবে স্ক্র্যাপার ওয়েবসাইটের মালিক দ্বারা ক্রল হওয়া থেকে বাদ দেওয়া ওয়েব পৃষ্ঠাগুলি দেখতে পারেন।

ফাইল ডাউনলোডগুলি উপেক্ষা করুন একবারে কোনও লিঙ্ক সেট করুন, যা দেখার পরে ফাইল ডাউনলোডের কারণ হয় না cause

সদৃশগুলি উপেক্ষা করুন যদি সেট করা থাকে তবে এটি আপনি নির্ধারিত মিলের চেয়ে সমান বা তার চেয়ে বেশি পাতাগুলি উপেক্ষা করবে, উদাহরণস্বরূপ আপনি 95% একই পৃষ্ঠাগুলি উপেক্ষা করতে পারেন।

সীমাবদ্ধ স্ক্র্যাপ থামানোর আগে ওয়েব স্ক্র্যাপার কত পৃষ্ঠাতে স্ক্র্যাপ হওয়া উচিত তা আপনাকে নির্দিষ্ট করতে দেয়।

আমার টাইমজোন ব্যবহার করুন যদি সেট করা থাকে তবে এটি ইঙ্গিত করে যে ওয়েব স্ক্র্যাপার কোনও তারিখকে স্ক্র্যাপ করে রূপান্তর করার চেষ্টা করা উচিত into আপনার স্থানীয় সময় অঞ্চল। আপনার সময় অঞ্চলটি অ্যাকাউন্ট পৃষ্ঠায় সেট করা যেতে পারে।

অবস্থান ভৌগলিক অবস্থান থেকে ওয়েব স্ক্র্যাপার স্ক্র্যাপটি সম্পাদন করবে। যদি লক্ষ্য ওয়েবসাইটের অবস্থানের ভিত্তিতে বিধিনিষেধ থাকে তবে এটি কার্যকর হতে পারে।

ডিফল্ট তারিখ ফর্ম্যাট তারিখগুলি রূপান্তর করার সময় যেখানে তারিখের ফর্ম্যাট নির্ধারণ করা যায় না, ওয়েব স্ক্র্যাপার পরিবর্তে এই নির্বাচিত বিন্যাসে ডিফল্ট হবে।

পৃষ্ঠা লোড বিলম্ব এই মুহুর্তে মিলি সেকেন্ডে ওয়েব স্ক্র্যাপার কোনও পৃষ্ঠা বিশ্লেষণের আগে অপেক্ষা করা উচিত। যদি কোনও পৃষ্ঠায় প্রচুর এজেএক্স থাকে বা লোড হতে ধীর হয় তবে এটি খুব কার্যকর।

লক্ষ্য ওয়েবসাইটগুলি

লক্ষ্য ওয়েবসাইটগুলি

টার্গেট ওয়েবসাইট ট্যাবে আপনি যে ওয়েবসাইটগুলি থেকে ডেটা উত্তোলন করতে চান তা নির্দিষ্ট করে। কোনও ওয়েবসাইট থেকে ডেটা উত্তোলনের জন্য স্ক্র্যাপ সরঞ্জামটি জানাতে আপনাকে প্রথমে আপনি যে মূল ইউআরএল তা নির্দিষ্ট করতে হবে intউদ্রেক করা যেমন http://www.example.com/shop/ এটি ছিল স্ক্র্যাপার তার স্ক্র্যাপটি শুরু করবে, এটি একটি সাধারণ ওয়েবপৃষ্ঠা, পিডিএফ ডকুমেন্ট, এক্সএমএল ডকুমেন্ট, জেএসএন নথি, আরএসএস ফিড বা সাইটম্যাপ হতে পারে। যদি এটি কোনও ওয়েব পৃষ্ঠা বা পিডিএফ ডকুমেন্ট না হয় তবে স্ক্র্যাপারটি ফাইলে সমস্ত লিঙ্ক সন্ধান করবে এবং প্রত্যেকে দেখতে পাবে।

কেবলমাত্র লক্ষ্যযুক্ত ইউআরএলে প্রাপ্ত লিঙ্কগুলি অনুসরণ করতে এবং পরবর্তী কোনও পৃষ্ঠাগুলি নয় যা আপনি সেট করতে পারেন লিঙ্কগুলি অনুসরণ করুন স্ক্র্যাপ বিকল্প থেকে প্রথম পৃষ্ঠায়। এটি কেবলমাত্র স্ক্র্যাপের বাকি অংশগুলিকে বীজ দিতে লক্ষ্যযুক্ত ইউআরএল ব্যবহার করবে।

ডিফল্টরূপে, ওয়েব স্ক্র্যাপার প্রতিটি লিঙ্কে এটি অনুসন্ধান করা প্রতিটি লিঙ্ক অনুসরণ করে। আপনি যদি লিঙ্ক করতে চান তবে সীমাবদ্ধ রাখতে চান ওয়েব স্ক্র্যাপার নীচে, এটি করার একটি সহজ উপায় হল ইউআরএল প্যাটার্ন নির্দিষ্ট করা। এই বিন্যাসের সাথে একটি ইউআরএল নির্দিষ্ট করে ওয়াইল্ড কার্ড হিসাবে নির্দিষ্ট করে বোঝায় যে বিন্যাসের এই অংশে কোনও অক্ষর উপস্থিত থাকতে পারে। এই ক্ষেত্রে http://www.example.com/*/articles/* ওয়েবসাইটের মূল থেকে দ্বিতীয় ডিরেক্টরি হিসাবে নিবন্ধ রয়েছে এমন কোনও URL এর স্ক্র্যাপ করবে।

ইউআরএল যেমন পোস্টের জন্য লগইন ফর্মের জন্য পরামিতিগুলির সাথে একটি URL নির্দিষ্ট করে। তা করতে লক্ষ্য URL টি পাঠ্য বাক্সে ফর্ম URL নির্দিষ্ট করুন এবং প্রয়োজনীয় পোস্ট প্যারামিটারগুলি যুক্ত করুন। ভেরিয়েবলের পোস্টের মানগুলিতে বিশেষ গ্র্যাবজিট ভেরিয়েবলগুলিও অন্তর্ভুক্ত থাকতে পারে যেমন:

  • {{day}} - দুই-অঙ্কের মান হিসাবে দিন
  • {{month}} - দুই-অঙ্কের মান হিসাবে মাস
  • {{year}} - চার অঙ্কের মান হিসাবে বছর
  • {{hour}} - দুই-অঙ্কের মান হিসাবে ঘন্টা
  • {{minute}} - দুই-অঙ্কের মান হিসাবে মিনিট
  • {{second}} - দুই-অঙ্কের মান হিসাবে দ্বিতীয়

শেষ পর্যন্ত আপনি নির্দিষ্ট করতে পারেন বীজ ইউআরএল এই URL গুলি স্ক্র্যাপ করা হয়েছে তা নিশ্চিত করতে।

বীজ ইউআরএল এর

বীজ ইউআরএল ব্যবহারকারীদের ইউআরএলগুলির একটি তালিকা নির্দিষ্ট করার অনুমতি দেয় যা অবশ্যই ওয়েব স্ক্র্যাপার দ্বারা ক্রল করা উচিত be আপনি যদি কেবল বীজ ইউআরএলগুলি স্ক্র্যাপড সেটটি সেট করতে চান লিঙ্কগুলি অনুসরণ করুন স্ক্র্যাপ বিকল্পগুলি থেকে কোন পৃষ্ঠা স্ক্র্যাপ বিকল্প ট্যাবে।

টার্গেট ওয়েবসাইটগুলি ট্যাবে বীজ ইউআরএল সেট করতে, টার্গেট যুক্ত বোতামটি ক্লিক করুন তারপরে বীজ ইউআরএলস সেট করুন চেকবক্সটি চেক করুন এবং প্রতিটি ইউআরএল পৃথক লাইনে স্ক্র্যাপ করতে নির্দিষ্ট করুন।

টেম্পলেট URL থেকে বীজ URL তৈরি করুন

বিকল্প হিসাবে আপনি টেম্পলেট ইউআরএল ব্যবহার করে স্বয়ংক্রিয়ভাবে বীজ ইউআরএল উত্পন্ন করতে পারবেন, এটি একটি একক ইউআরএল যা একটি URL পরিবর্তনশীল অন্তর্ভুক্ত করে। একটি ইউআরএল ভেরিয়েবল পুনরাবৃত্ত হওয়ার জন্য বিভিন্ন সংখ্যার সীমা নির্দিষ্ট করে।

{{start number|finish number|iterate number}}

  • শুরু নম্বর URL পরিবর্তনশীল যে নম্বর থেকে শুরু হয় the
  • শেষ সংখ্যা ইউআরএল ভেরিয়েবলের যে নম্বরটি শেষ হয়
  • পুনরাবৃত্তি সংখ্যা URL পরিবর্তনশীল যে সংখ্যাটি দ্বারা পুনরাবৃত্তি হয়

শুরুর সংখ্যাটি এমন একটি নম্বর যা ইউআরএল ভেরিয়েবলের গণনা শুরু করা উচিত, সমাপ্ত নম্বরটি এমন একটি নম্বর যা ইউআরএল ভেরিয়েবল গণনা বন্ধ করবে, পুনরাবৃত্ত সংখ্যাটি এমন একটি সংখ্যা যা ইউআরএল ভেরিয়েবলের প্রতিটি পুনরাবৃত্তির জন্য সংখ্যাটি বাড়বে will

উদাহরণস্বরূপ নীচের টেম্পলেট ইউআরএল http://www.example.com/search?pageNo={{1|3|1}}

এরপরে নিম্নলিখিত বীজের ইউআরএল তৈরি করা হবে:

  • http://www.example.com/search?pageNo=1
  • http://www.example.com/search?pageNo=2
  • http://www.example.com/search?pageNo=3

স্ক্র্যাপ নির্দেশাবলী

স্ক্র্যাপ নির্দেশাবলী লক্ষ্য ওয়েবসাইট (গুলি) স্ক্র্যাপ করার সময় কী পদক্ষেপ নিতে হবে তা ওয়েব স্ক্র্যাপকে বলে per স্ক্র্যাপ নির্দেশিকা ট্যাব স্ক্র্যাপ উইজার্ডটি ডিফল্টরূপে দেখায় যা আপনার প্রয়োজনীয় স্ক্র্যাপ নির্দেশাবলী যুক্ত করা সহজ করে তোলে। শুরু করতে টিপুন নতুন স্ক্র্যাপ নির্দেশ যুক্ত করুন লিঙ্ক।

এটি উইজার্ডটি খুলবে এবং স্বয়ংক্রিয়ভাবে লক্ষ্য URLটি লোড করবে, আপনাকে যা স্ক্র্যাপ করতে হবে তা অবিলম্বে নির্বাচনের অনুমতি দেয়। যদি কোনও ওয়েবপৃষ্ঠা বা পিডিএফ ডকুমেন্ট লোড করা থাকে তবে আপনি যে কোনও লিঙ্কে ক্লিক করতে পারেন এবং এটি স্বাভাবিক হিসাবে কাজ করবে, উদাহরণস্বরূপ অন্য ওয়েবপৃষ্ঠায় নেভিগেশন। আপনি এই পোটিতে স্ক্রিনের নীচে, ক্রিয়াগুলির মধ্যে একটি চয়ন না করা পর্যন্তint সামগ্রীটির যে কোনও ক্লিক আপনি এক্সট্রাক্ট করতে বা হেরফের করতে চান এমন HTML উপাদান নির্বাচন করবে।

স্ক্র্যাপের নির্দেশাবলীর বিষয়ে প্রথম জিনিসটি বুঝতে হবে যে তারা প্রতিটি ওয়েব পৃষ্ঠায় ডিফল্টরূপে কার্যকর করা হয়। এটি বন্ধ করার উপায় হ'ল টেমপ্লেট ব্যবহারের মাধ্যমে। কোনও লিঙ্কে ক্লিক করার মতো কোনও ক্রিয়াকলাপ করার সময় একটি টেম্পলেট নির্ধারিত হতে পারে এবং যাতে যখনই স্ক্র্যাপার সেই লিঙ্কটিতে যায় বা সেই বোতামটি ক্লিক করে তখন তা সনাক্ত করতে পারে যে এটি নির্ধারিত টেম্পলেটটির অন্তর্ভুক্ত। এটি বিভিন্ন পৃষ্ঠার প্রকারকে সংজ্ঞায়িত করার অনুমতি দেয়। উদাহরণস্বরূপ আপনার কাছে এমন একটি পণ্য বিভাগের পৃষ্ঠা থাকতে পারে যাতে কিছু সংক্ষিপ্তসার তথ্য এবং তারপরে পণ্য সম্পর্কিত তথ্য সহ একটি বিশদ পৃষ্ঠা রয়েছে। উভয় পৃষ্ঠার সম্ভবত বিভিন্ন স্ক্র্যাপ নির্দেশাবলীর একটি পৃথক সেট প্রয়োজন হবে।

স্ক্র্যাপ টেম্পলেট

শুরু করতে বেছে নিন ক্লিক ক্রিয়া, তারপরে আপনি একবার ক্রিয়া সম্পাদন করতে এবং আইটেমটি ক্লিক করতে চাইলে আইটেমগুলি নির্বাচন করুন পরবর্তী বোতামটিতে টেমপ্লেটের নাম লিখুন একটি টেম্পলেট তৈরি করুন পাঠ্য বাক্স এখনই যখনই স্ক্র্যাপার এই ক্রিয়াকলাপগুলি কার্যকর করে, ফিরে আসা টেম্পলেটটি আপনার সরবরাহ করা নাম হবে।

তারপরে কোনও স্ক্র্যাপের নির্দেশকে একটি নির্দিষ্ট টেম্পলেট বরাদ্দ করার জন্য আপনাকে এক্সিকিউট ইন ড্রপ ডাউন তালিকা, যা স্ক্র্যাপ নির্দেশ যুক্ত হওয়ার ঠিক আগে উপস্থিত হওয়া অপশন উইন্ডোতে উপস্থিত হয়। টেমপ্লেট নির্বাচন করার সময় তিনটি প্রধান বিকল্প হ'ল:

  • সমস্ত পৃষ্ঠা - এই স্ক্র্যাপ নির্দেশের জন্য কোনও টেম্পলেট ব্যবহার করবেন না, স্ক্র্যাপ নির্দেশটি সমস্ত ওয়েব পৃষ্ঠায় কার্যকর করা হবে।
  • ডিফল্ট টেমপ্লেট - ব্যবহারকারীর সংজ্ঞায়িত টেম্পলেটগুলির মধ্যে একটিও ব্যবহার করবেন না। স্ক্র্যাপ নির্দেশাবলী কোনও ওয়েব পৃষ্ঠায় কার্যকর করা হবে যা নির্দিষ্ট কোনও টেমপ্লেট নেই।
  • ব্যবহারকারী সংজ্ঞায়িত টেম্পলেট - একটি নির্দিষ্ট টেম্পলেট যা আপনার দ্বারা নির্দিষ্ট ওয়েব পৃষ্ঠা বা ক্রিয়া শনাক্ত করার জন্য সংজ্ঞায়িত করা হয়েছে।

আপনি একবার এই বিকল্পগুলির মধ্যে একটি নির্বাচন করে নিলে স্ক্র্যাপ নির্দেশ কেবল নির্দিষ্ট টেম্পলেটটিতেই কার্যকর করা হবে।

তথ্য আহরণ করা হচ্ছে

আপনি লক্ষ্য করবেন যে আপনি যখন নির্বাচন করেন ডেটা এক্সট্রাক্ট করুন এক্সট্রাক্ট করার জন্য ডেটা আইটেমগুলির একটি সিরিজ ক্রিয়া তত্ক্ষণাত পর্দার নীচে বাম কোণে ডাউনলোডের জন্য উপলব্ধ হয়ে যায়। এগুলি আপনি ডাউনলোড করতে পারেন এমন পুরো পৃষ্ঠার বৈশিষ্ট্য। একটি চয়ন করতে, কেবল বিকল্পগুলির তালিকা থেকে এটি নির্বাচন করুন এবং ক্লিক করুন পরবর্তী ডেটা যোগ করতে ডেটা সেটটি.

আপনি যদি পুরো পৃষ্ঠায় অন্তর্ভুক্ত না করে নির্দিষ্ট HTML উপাদানগুলিতে ডেটা আহরণ করতে চান তবে আপনাকে সংশ্লিষ্ট HTML উপাদানগুলিতে ক্লিক করতে হবে, আপনি একক বা একাধিক আইটেম নির্বাচন করতে পারেন। তবে আপনি যদি একাধিক আইটেম নির্বাচন করছেন তবে দয়া করে চেষ্টা করুন এবং একাধিক আইটেমগুলি নির্বাচন করুন যা কলামে একাধিক সারিগুলির মতো একই, কারণ যদি স্ক্র্যাপার কোনও নিয়ম তৈরি করতে না পারে যা অনন্যভাবে ডেটার নির্বাচিত সংগ্রহকে সনাক্ত করতে পারে তবে স্ক্র্যাপের নির্দেশনা হ'ল না তৈরি হতে সক্ষম হতে। তদুপরি আপনি যদি ক্লিক করছেন এমন একাধিক আইটেমগুলিকে আমাদের ওয়েব স্ক্র্যাপার উইজার্ড দ্বারা পুনরাবৃত্তি তথ্য হিসাবে চিহ্নিত করা হয়েছে, তবে একই গ্রুপে সমস্ত পুনরাবৃত্তি তথ্য স্বয়ংক্রিয়ভাবে নির্বাচিত হবে be আপনি একবার আপনার সমস্ত একক বা একাধিক আইটেম নির্বাচন করলে স্ক্রিনের নীচে বাম থেকে নিষ্কাশনের জন্য একটি বৈশিষ্ট্য চয়ন করুন এবং তারপরে ক্লিক করুন পরবর্তী.

একটি ডেটাসেট তৈরি করা হচ্ছে

ডেটাसेट পর্দা আপনাকে কীভাবে ডেটা প্রক্রিয়াজাত করা যায় তা পরিবর্তনের অনুমতি দেয়, উদাহরণস্বরূপ আপনি এটির মধ্যে ডেটাসেট এবং কলামগুলির নাম পরিবর্তন করতে পারেন, নামটির জন্য নামটিতে ক্লিক করুন। আপনি যখন একটি ডেটাসেটে একটি কলাম যুক্ত করবেন তখন আপনাকে যে টেম্পলেটটি প্রয়োগ করা উচিত তা চয়ন করতে হবে the কলামের নীচে অবস্থিত ড্রপ ডাউন তালিকায় ক্লিক করে আপনি এটি পরিবর্তন করতে পারেন।

প্রায়শই ডেটা বের করার সময়, কিছু পুনরাবৃত্তি আইটেমগুলিতে অসামঞ্জস্যভাবে পুনরাবৃত্তি করা সাধারণ, সঠিক সারিগুলি এখনও একে অপরের সাথে যুক্ত রয়েছে তা নিশ্চিত করার জন্য লিঙ্ক কলাম মানদণ্ড, ডেটাসেটের সর্বাধিক ধারাবাহিক কলামের সাথে বেমানান কলামগুলিকে লিঙ্ক করতে।

ডেটাসেটে আরও ডেটা যুক্ত করতে ক্লিক করুন বোতাম বা ক্লিক করুন ডেটাसेट থেকে ডেটা অপসারণ করতে, বা পুরো ডেটাसेट মুছে ফেলতে। ডেটাসেটটি ডেটাতে বিভিন্ন মানদণ্ড প্রয়োগ করার অনুমতি দেয়, এটি শীর্ষ থেকে পছন্দসই ক্রিয়াটি নির্বাচন করুন এবং তারপরে মানদণ্ড প্রয়োগের জন্য প্রাসঙ্গিক কলামে ক্লিক করুন। আপনি যদি মানদণ্ড যুক্ত করে ভুল করেন তবে ক্লিক করুন বোতাম.

বিভিন্ন মানদণ্ডের ধরণের তালিকা এবং সেগুলি কীভাবে ব্যবহার করবেন তা এখানে রয়েছে:

  • সীমা সীমাবদ্ধ করুন - এটি ওয়েব পৃষ্ঠা থেকে নিষ্কাশিত সারিগুলির সংখ্যাকে আপনার সংজ্ঞায়িত সংখ্যায় সীমাবদ্ধ করবে। ক্লিক করতে ব্যবহার করুন এবং তারপরে সারিটিতে ক্লিক করুন, যা আপনি কাটতে চান।
  • পুনরাবৃত্তি - কলামটি দীর্ঘতম কলামের দৈর্ঘ্যের সাথে মেলা না হওয়া পর্যন্ত কলামের আইটেমগুলি পুনরাবৃত্তি করে। ব্যবহার করতে কেবল ক্লিক করুন এবং তারপরে আপনি যে কলামটির জন্য আইটেমগুলি পুনরাবৃত্তি করতে চান তাতে ক্লিক করুন।
  • অনন্য করুন - প্রবেশ করা সমস্ত মানগুলির জন্য কোনও সদৃশ মান সরিয়ে দেয় intওএ কলাম ব্যবহার করতে কেবল ক্লিক করুন এবং তারপরে আপনি যে কলামটি অনন্য করতে চান তাতে ক্লিক করুন।
  • মানগুলি প্রত্যাহার করুন - পাঠ্যের একটি ব্লক থেকে কেবলমাত্র ডেটা মেলানো আইটেমগুলি বের করার জন্য একটি প্যাটার্ন নির্দিষ্ট করুন। ব্যবহার করতে কেবল ক্লিক করুন , প্রাসঙ্গিক কলামটি নির্বাচন করুন এবং তারপরে একটি প্যাটার্ন তৈরি করতে নির্দেশাবলী অনুসরণ করুন যা প্রাসঙ্গিক থেকে প্রাসঙ্গিক ডেটা ফেরত দেবে string.
  • ট্রিম মান - অপ্রয়োজনীয় পাঠ্য ট্রিম করতে একটি প্যাটার্ন নির্দিষ্ট করুন। ব্যবহার করতে কেবল ক্লিক করুন , প্রাসঙ্গিক কলামটি নির্বাচন করুন এবং তারপরে পাঠ্যটি ছাঁটাই করবে এমন একটি প্যাটার্ন তৈরি করতে নির্দেশাবলী অনুসরণ করুন।
  • লিঙ্ক কলাম - কলামগুলি একসাথে লিঙ্ক করার অনুমতি দেয়। যাতে ডেটা বের করার সময়, রেকর্ডগুলি সংযুক্ত কলামে আপেক্ষিক সারি হিসাবে একই সারিটিতে উপস্থিত হয় এমনকি ফলাফলের সংখ্যায় কোনও মিল নেই। ব্যবহার করতে কেবল ক্লিক করুন , লিঙ্ক করতে কলাম এবং তারপরে লিঙ্কে কলামটি নির্বাচন করুন।
  • কলামটি লুকান - কখনও কখনও আপনি ফিল্টার করার জন্য একটি কলাম অন্তর্ভুক্ত করতে চান তবে চূড়ান্ত ফলাফলটিতে মানগুলি অন্তর্ভুক্ত করতে চান না। এটি করতে ক্লিক করুন , আপনি বাদ দিতে চান কলাম নির্বাচন করুন।
  • সাজান আরোহী - আরোহণ করে কলাম অনুসারে সাজানো। ক্লিক করতে ব্যবহার করুন এবং তারপরে সাজানোর জন্য কলামটি চয়ন করুন।
  • অধোগামী করে সাজানো - কলাম অনুসারে সাজানো, অবতরণ। ক্লিক করতে ব্যবহার করুন এবং তারপরে সাজানোর জন্য কলামটি চয়ন করুন।
  • রয়েছে - কেবলমাত্র নির্ধারিত মান সহ এমন মান অন্তর্ভুক্ত করুন। ক্লিক করতে ব্যবহার করুন পছন্দসই কলামটি নির্বাচন করুন এবং তারপরে কলামের মানগুলির মধ্যে থাকা মানটি লিখুন।
  • সমান - কেবলমাত্র নির্ধারিত মানের সমান মানগুলি অন্তর্ভুক্ত করুন। ক্লিক করতে ব্যবহার করুন পছন্দসই কলামটি নির্বাচন করুন এবং তারপরে কলামের মান সমান হওয়া উচিত enter
  • অসমান - কেবলমাত্র মানগুলি অন্তর্ভুক্ত করুন যা সংজ্ঞায়িত মানের সমান নয়। ক্লিক করতে ব্যবহার করুন পছন্দসই কলামটি নির্বাচন করুন এবং তারপরে মানটি কলামটির সমান হওয়া উচিত নয় enter
  • কম - কেবলমাত্র মানগুলি অন্তর্ভুক্ত করুন যা সংজ্ঞায়িত মানের চেয়ে কম। ক্লিক করতে ব্যবহার করুন পছন্দসই কলামটি নির্বাচন করতে এবং তারপরে কলামটির চেয়ে কম মানটি লিখতে হবে।
  • অপেক্ষা বৃহত্তর - কেবলমাত্র নির্ধারিত মানের চেয়ে বড় মানের অন্তর্ভুক্ত করুন। ক্লিক করতে ব্যবহার করুন পছন্দসই কলামটি নির্বাচন করতে এবং তারপরে কলামটির চেয়ে বড় মানটি লিখতে হবে।

আপনি যখন উপরোক্ত ক্রিয়াকলাপগুলির মধ্যে একটি নির্বাচন করেছেন এটি যদি এটি একাধিক কলামগুলিকে প্রভাবিত করতে পারে তবে এটি আপনাকে জিজ্ঞাসা করবে যে আপনি কেবল এটি কলামগুলির বা তার সমস্তগুলির একটি উপসেটকে প্রভাবিত করতে চান কিনা। বেশিরভাগ ক্ষেত্রে আপনি এটি সমস্ত কলামকেই প্রভাবিত করতে চান তবে কিছু পরিস্থিতিতে কলামগুলি প্রভাবিত করে সীমাবদ্ধ করা কার্যকর। উদাহরণস্বরূপ, আপনি যদি একটি সিরিজ নির্বাচন করছেন লেবেল এবং মান, যা ওয়েব পৃষ্ঠাগুলিতে অবস্থান পরিবর্তন করে আপনি সমস্ত লেবেল এবং মান নির্বাচন করতে পারেন। তারপরে ডেটাসেটে এটি পছন্দসই লেবেলে সীমাবদ্ধ করতে সমান অপারেশনটি ব্যবহার করুন এবং নির্দিষ্ট করুন যে কেবলমাত্র লেবেল এবং মান কলামগুলিই প্রভাবিত হবে। এটি নিশ্চিত করবে যে অন্যান্য কলামগুলি সারিগুলি মুছে ফেলাতে প্রভাব ফেলবে না, সম্পূর্ণতার জন্য এটি লেবেল কলামটি আড়াল করতে দরকারী।

আপনি যা যা করতে চান তার মধ্যে একবার পরিবর্তন করার পরে ক্লিক করুন পরবর্তী এবং, আপনার স্ক্র্যাপ নির্দেশাবলী স্ক্র্যাপে যুক্ত করা হবে।

একটি ওয়েবপেজ হস্তক্ষেপ

কোনও ওয়েবপৃষ্ঠা স্ক্র্যাপ করার আগে হেরফের করা যেতে পারে, ক্লিক করে, টাইপ করে এবং ড্রপ ডাউন থেকে মানগুলি নির্বাচন করে। এটি মনে রাখা গুরুত্বপূর্ণ যে যদিও এটি কোনও নতুন ওয়েবপৃষ্ঠায় স্ক্র্যাপ নির্দেশাবলী লোড করতে পারে তবে সমস্ত প্রযোজ্য স্ক্র্যাপ নির্দেশাবলী কার্যকর না হওয়া পর্যন্ত পুনরায় আরম্ভ হবে না।

একটি ওয়েবপৃষ্ঠা কৌশলগতভাবে যেকোন একটি বেছে নিন এলিমেন্ট ক্লিক করুন, এলিভার হোল, স্ক্রোল, টাইপ টেক্সট or ড্রপ ডাউন তালিকা মান নির্বাচন করুন কর্ম। আপনি যদি একটি ক্লিক ক্রিয়া সম্পাদন করে থাকেন তবে আপনি ওয়েবপৃষ্ঠায় যে কোনও সংখ্যক উপাদানকে ক্লিক করতে পারেন। অন্যথায় আপনাকে অবশ্যই একটি উপযুক্ত এইচটিএমএল উপাদান নির্বাচন করতে হবে, উদাহরণস্বরূপ একটি পাঠ্য বাক্সে পাঠ্য টাইপ করা উচিত। তারপর ক্লিক করুন পরবর্তী। এটি একটি বিকল্প বাক্স খুলবে যা আপনাকে অ্যাকশনটি সম্পূর্ণ করতে দেয়। পাঠ্যটি টাইপ করার সময় এবং একটি টাইপ করতে বা বেছে নেওয়ার জন্য একটি ড্রপ ডাউন থেকে নির্বাচন করার সময় যথাক্রমে চয়ন করতে হবে। তিনটি ক্রিয়াকলাপের জন্য অপশনগুলি একই।

আপনি যদি চান তবে আপনি টেমপ্লেটটি নির্বাচন করতে পারেন এই ক্রিয়াকলাপটি কার্যকর করা উচিত এবং ক্লিক ক্রিয়াকলাপটি শেষ হয়ে গেলে টেমপ্লেট কীভাবে প্রয়োগ হয় তার জন্য ক্লিক করুন। যাইহোক, ক্লিক পৃষ্ঠায় একই পৃষ্ঠায় একাধিক ক্লিক সম্পাদন করে একটি নতুন টেমপ্লেট বরাদ্দ করা ভাল ধারণা নয়, যেমন ইনলাইন পপআপগুলি খুলতে বা পর্দায় জিনিসগুলিকে প্রদর্শিত করা। এটি কারণ যদি ক্লিক ক্রিয়াটি কেবলমাত্র নির্দিষ্ট টেম্পলেটগুলিতে কার্যকর হয় তবে প্রথম ক্লিকের দ্বারা নির্ধারিত নতুন টেম্পলেটটি পুনরায় সেট করা হবে না এবং সুতরাং স্ক্র্যাপটি কীভাবে লেখা হয়েছিল তার উপর নির্ভর করে ভবিষ্যতে ক্লিকগুলি একই পৃষ্ঠাতে কার্যকর করা বন্ধ করতে পারে। আপনি যদি এই ক্রিয়াটি একবারে সম্পাদন করতে চান তবে আপনি সংজ্ঞাও দিতে পারেন, আপনি যদি লগইনের মতো কিছু করে থাকেন তবে তা কার্যকর intওএ ওয়েবসাইট।

প্রকার পাঠ্য বা নির্বাচন করুন ড্রপ ডাউন তালিকা মান ক্রিয়াগুলি আপনাকে যথাক্রমে পাঠ্যের একাধিক আইটেম টাইপ করতে বা একাধিক নির্বাচন বাক্স নির্বাচন করতে দেয়। এগুলি স্ক্র্যাপ নির্দেশাবলী ক্লিক করে সম্পাদনা করা যেতে পারে পরিবর্তনীয় পরিবর্তন বা দেখুন বাম স্ক্রিনশটে প্রদর্শিত হিসাবে বোতাম।

উদাহরণস্বরূপ, আপনি যদি কোনও অনুসন্ধান বাক্সে নামের একটি তালিকা টাইপ করতে চান তবে এটি গুরুত্বপূর্ণ হতে পারে। অনুসন্ধান বাক্সে যখন কোনও মান থাকে তখনই কোনও ফর্ম জমা দেওয়া হয় তা নিশ্চিত করার জন্য পাঠ্য সাফল্যের সাথে টাইপ করা প্রতিটি সময় একটি টেম্পলেট সেট করা যেতে পারে into এই টেমপ্লেটটি সেট না করা থাকলে পাঠ্যবক্স এবং একটি বোতামের ক্লিক ক্রিয়া সম্পাদিত হবে না। ক্লিক অ্যাকশনটি সম্পাদন করার পরে প্রক্রিয়াটি পুনরায় সেট করার জন্য টেমপ্লেটটিকে অন্য কোনও কিছুর পরিবর্তিত করা দরকার।

ওয়েবসাইটগুলি চালিত করে এমন ক্রিয়াকলাপগুলি কার্যকর করার পরে, ক্রিয়াগুলি ক্রমাগত চালিয়ে যাওয়ার আগে AJAX সামগ্রীটি লোড করার অনুমতি দেওয়ার জন্য যদি ক্রিয়াগুলি AJAX কার্যকারিতা শুরু করে তবে কিছুক্ষণ অপেক্ষা করা কার্যকর। আপনি এই ক্ষেত্রে একটি বিলম্ব যোগ করে এটি করতে পারেন এক্সিকিউশন পরে অপেক্ষা করুন টেক্সট বক্স।

কিছু শর্ত পূরণ হয়ে গেলে আপনি সরাসরি আলাদা ইউআরএল-এ যেতে চান। এটি ব্যবহার করতে URL এ যান অ্যাকশন, যা কেবল তখনই উপস্থিত হবে যখন কমপক্ষে একটি টেম্পলেট স্ক্র্যাপে সংজ্ঞায়িত করা হয়েছে এবং যখন তৈরি করা হবে তখন কোনও টেম্পলেটকে বরাদ্দ করতে হবে, অসীম লুপগুলি এড়াতে সহায়তা করতে।

অবশেষে আপনি গ্র্যাবসআইটি'র ক্যাপচার এপিআইয়ের সমস্ত আপনার ওয়েব স্ক্র্যাপগুলিতে ব্যবহার করতে পারেন, কেবল ক্যাপচার ওয়েবপেজ ক্রিয়াটি চয়ন করুন এবং আপনার পছন্দসই ক্যাপচারটি চয়ন করুন choose আপনি একবার নির্বাচন করলে এটি কার্যকর করতে কোনও টেম্পলেট নির্দিষ্ট করে স্ক্র্যাপের মধ্যে নির্দিষ্ট ওয়েব পৃষ্ঠাগুলি ক্যাপচার করতে সীমাবদ্ধ করতে পারেন পরবর্তী বোতাম.

প্রতিটি স্ক্র্যাপ নির্দেশ যুক্ত হওয়ার পরে এটি স্ক্র্যাপ নির্দেশিকা প্যানেলে দেখা যাবে, প্রতিটি স্ক্র্যাপের নির্দেশের পাশের ক্রসটি স্ক্র্যাপ নির্দেশকে মোছার অনুমতি দেয়। যদি স্ক্র্যাপের কোনও নির্দেশনা মুছে ফেলা হয় যা অন্যান্য স্ক্র্যাপ নির্দেশাবলীর দ্বারা প্রয়োজনীয় হয় তবে সেই নির্দেশাবলীও মুছে ফেলা হয়। আপনি দখল আইকন দিয়ে কোনও স্ক্র্যাপ নির্দেশাবলী টেনে স্ক্র্যাপ নির্দেশাবলীর ক্রম পরিবর্তন করতে পারেন।

স্ক্র্যাপের নির্দেশাবলী ম্যানুয়ালি লিখছি

আপনার যদি আরও নির্দিষ্ট উপায়ে স্ক্র্যাপ নির্দেশাবলী কাস্টমাইজ করতে হয় বা আপনি কোডটি কার্যকর করতে চান স্ক্র্যাপ আগে বা পরে আপনাকে স্ক্র্যাপের নির্দেশাবলী ম্যানুয়ালি পরিবর্তন করতে হবে।

স্ক্র্যাপের নির্দেশাবলী জাভাস্ক্রিপ্ট ভিত্তিক এবং কোড এডিটরটি একটি সিনট্যাক্স পরীক্ষক, স্বয়ংক্রিয়-সম্পূর্ণ এবং টুলটিপ যতটা সম্ভব সহজ করার জন্য সম্পূর্ণ আসে।

ওয়েব স্ক্র্যাপার নির্দেশাবলী কোড সম্পাদকের মূল কার্যকারিতা মেনু বিকল্পগুলির মাধ্যমে অ্যাক্সেসযোগ্য, যা স্ক্রিনশটে দেখানো হয়েছে, প্রতিটিটির উদ্দেশ্য নীচে আলাদাভাবে ব্যাখ্যা করা হয়েছে। আপনার স্ক্র্যাপের নির্দেশাবলীতে যে কোনও সিনট্যাক্স ত্রুটি কোড সম্পাদকের বাম হাতের নালীতে নির্দেশিত হয়েছে।

জাদুকর উইজার্ডটি আপনাকে পৃষ্ঠার অংশগুলি নির্বাচন করতে দেয় যা আপনি এক্সট্র্যাক্ট নিতে চান এবং ওয়েব ক্যাপচারগুলি তৈরি করার মতো অন্যান্য সাধারণ কাজগুলি করতে চান।

স্ক্র্যাপ নির্দেশাবলী প্রদর্শন করুন ব্যবহারকারীর কাছে স্ক্র্যাপ নির্দেশিকা কোড প্রদর্শন করে।

সমস্ত নির্দেশ মুছুন সমস্ত স্ক্র্যাপ নির্দেশাবলী মুছে দেয়।

ওয়েবপেজ ফাংশন পৃষ্ঠা কীওয়ার্ডটি প্রবেশ করবে into স্ক্র্যাপের নির্দেশাবলী এবং স্বয়ংক্রিয় সম্পূর্ণ খুলুন, এতে সমস্ত সম্ভাব্য রয়েছে পৃষ্ঠা ফাংশন। পৃষ্ঠা ফাংশনগুলি আপনাকে ওয়েব পৃষ্ঠা থেকে ডেটা উত্তোলনের অনুমতি দেয়।

ডেটা ফাংশন ডেটা কীওয়ার্ড প্রবেশ করবে intহে স্ক্র্যাপ নির্দেশাবলী। ডেটা ফাংশন আপনাকে অনুমতি দেয় save তথ্য।

নেভিগেশন ফাংশন নেভিগেশন কীওয়ার্ড প্রবেশ করে intও কোড সম্পাদক। দ্য নেভিগেশন ফাংশন কীভাবে ওয়েব স্ক্র্যাপার লক্ষ্যবস্তু ওয়েবসাইটগুলিতে নেভিগেট করে তা আপনাকে নিয়ন্ত্রণ করতে দেয়।

গ্লোবাল ফাংশন গ্লোবাল কীওয়ার্ড প্রবেশ করে intহে স্ক্র্যাপ নির্দেশাবলী। এটি আপনাকে অ্যাক্সেস দেয় ক্রিয়াকলাপ যা বিভিন্ন ওয়েব পৃষ্ঠাগুলি পার্স করার মধ্যে ডেটা সংরক্ষণ করতে পারে। স্ক্র্যাপ নির্দেশাবলী লেখার সময় এটি মনে রাখা জরুরী যে স্ক্র্যাপ নির্দেশাবলীর মধ্যে জাভাস্ক্রিপ্ট ভেরিয়েবলের অবস্থা যখন ওয়েব পৃষ্ঠাগুলির মধ্যে স্ক্র্যাপার স্থানান্তরিত হয় তখন তা রাখা হয় না, যদি না আপনি গ্লোবাল ফাংশন ব্যবহার করেন save ভেরিয়েবল, নীচে প্রদর্শিত হিসাবে।

Global.set("myvariable", "hello");
var mrvar = Global.get("myvariable");

গ্লোবাল.সেট পদ্ধতিতে অবিচলিত প্যারামিটারের সাথে একটানা গ্লোবাল ভেরিয়েবল পাসটি তৈরি করতে নীচের মত দেখাচ্ছে।

Global.set("myvariable", "hello", true);

ইউটিলিটি ফাংশন ইউটিলিটি কীওয়ার্ড প্রবেশ করে intহে স্ক্র্যাপ নির্দেশাবলী। এটি আপনাকে ব্যবহার করতে দেয় সাধারণ ফাংশন যা স্ক্র্যাপগুলি লেখাকে সহজ করে তোলে যেমন কোয়েরি যুক্ত করা বা মুছে ফেলার মতোstring ইউআরএল থেকে পরামিতি।

মানদণ্ড কার্যাদি মানদণ্ড কীওয়ার্ড প্রবেশ করে intহে স্ক্র্যাপ নির্দেশাবলী। এইগুলো ক্রিয়াকলাপ আপনাকে আপনার স্ক্র্যাপের সময় নিষ্কাশিত ডেটা যেমন: ডুপ্লিকেটগুলি মুছে ফেলার অনুমতি দেয়।

ফিল্টার আপনাকে সহজেই একটি ফিল্টার তৈরি করতে দেয়, এটি একটি ওয়েব পৃষ্ঠার মধ্য থেকে একটি নির্দিষ্ট এইচটিএমএল উপাদান নির্বাচন করার জন্য কিছু ফাংশন দ্বারা প্রয়োজনীয়। আপনার লক্ষ্য উপাদানটি থাকা উচিত এবং / অথবা উপাদানটির পিতামাতার (গুলি) সেই উপাদানটি নির্বাচন করতে হবে কেবল তা নির্বাচন করুন। নিশ্চিত করুন যে আপনি এই বিকল্পটি ক্লিক করার আগে আপনার কার্সারটিও ফিল্টারটি পাস করার জন্য ফাংশনে সঠিক জায়গায় রয়েছে।

স্ক্রিনশট ফাংশন আপনাকে স্ক্রিনশট বিকল্পগুলি সেট করতে দেয়। টুলটিপ দ্বারা চিহ্নিত হিসাবে ফাংশনের সঠিক অংশে কেবল কার্সারটি রাখুন এবং স্ক্রিনশট বিকল্পগুলি টিপুন। তারপরে আপনি চান সমস্ত অপশন বেছে নিন এবং কমান্ডটি সন্নিবেশ করুন।

স্ক্র্যাপের আগে বা পরে ক্রিয়া সম্পাদন করা

স্ক্র্যাপ নির্দেশিকা ট্যাবটির শীর্ষে বিকল্পগুলির ড্রপ ডাউন তালিকা ব্যবহার করে আপনি কোনও স্ক্র্যাপের আগে বা পরে কমান্ডগুলি চালাতে পারেন। কোনও কমান্ড প্রবেশ করানো হয়েছে যখন স্ক্র্যাপের পরে কার্যকর করুন নির্বাচিতটি স্ক্র্যাপ শেষ হওয়ার পরে চালানো হবে। কোনও কমান্ড প্রবেশ করার সময় স্ক্র্যাপের আগে কার্যকর করুন নির্বাচিত হলে স্ক্র্যাপ শুরু হওয়ার আগে চালানো হবে।

তবে এই দুটি বিশেষ মোডের যে কোনওটিতে যখন স্ক্র্যাপ নির্দেশাবলীর কেবলমাত্র একটি উপসেট পাওয়া যায়। উপলভ্য কমান্ডগুলি হ'ল ডেটা, গ্লোবাল এবং নেভিগেশন স্ক্র্যাপ নির্দেশাবলী।

Strings

Stringপাঠ্যকে সংজ্ঞায়িত করতে কোনও ওয়েব স্ক্র্যাপ করার সময় স্ক্র্যাপ নির্দেশিকায় ব্যবহৃত হয়। একজন string দ্বিগুণ দ্বারা সীমিত করা হয় (") বা একক উদ্ধৃতি (')। যদি একটি string এটি একটি ডাবল উদ্ধৃতি দিয়ে শুরু হয় এটি অবশ্যই একটি ডাবল উদ্ধৃতি দিয়ে শেষ করা উচিত, যদি ক string এটি একটি একক উদ্ধৃতি দিয়ে শুরু হয় এটি অবশ্যই একক উদ্ধৃতি দিয়ে শেষ হবে। এই ক্ষেত্রে:

"my-class" এবং 'my-class'

একটি সাধারণ ত্রুটি যা ঘটতে পারে তা হ'ল বন্ধ string ত্রুটি, এটি যখন একটি string উপরে প্রদর্শিত হিসাবে একটি সমাপনী উদ্ধৃতি নেই বা এর মধ্যে একটি লাইন ব্রেক রয়েছে string। নিম্নলিখিত অবৈধ হয় strings:

"my
class"

"my class

এই ত্রুটিটি ঠিক করার জন্য এটি নিশ্চিত করা হয় যে তারা লাইন বিরতি না রাখে এবং মেলানো কোটগুলি যেমন রাখে না:

"my class" এবং "my class"

কখনও কখনও আপনি একটিতে একক বা ডাবল উদ্ধৃতি উপস্থিত হতে চান string। এটির সবচেয়ে সহজ উপায় হ'ল একটিতে একটি একক উক্তি রাখা string ডাবল উদ্ধৃতি এবং একটিতে একটি ডাবল উদ্ধৃতি দিয়ে সীমিত string একক উদ্ধৃতি দিয়ে সীমিত, যেমন:

"Bob's shop" এবং '"The best store on the web"'

বিকল্পভাবে আপনি এর মতো একটি উদ্ধৃতি থেকে বাঁচতে ব্যাকস্ল্যাশ ব্যবহার করতে পারেন:

'test\'s'

সাধারণ ম্যানুয়াল স্ক্র্যাপ কার্যগুলি

লিঙ্ক পরীক্ষক একটি কাস্টম লিঙ্ক পরীক্ষক তৈরি করুন - কীভাবে এই সাধারণ নির্দেশাবলী অনুসরণ করে কাস্টম লিঙ্ক চেকার তৈরি করবেন তা সন্ধান করুন।
চিত্র ডাউনলোড একটি ওয়েবসাইট থেকে সমস্ত চিত্র ডাউনলোড করুন - কোনও সম্পূর্ণ ওয়েবসাইট থেকে সমস্ত চিত্র কীভাবে ডাউনলোড করবেন তা সন্ধান করুন।
ডেটাসেট তৈরি করুন ডেটা বের করুন এবং এটি রূপান্তর করুন intওএ ডাটাসেট - আপনি যে ওয়েবসাইটটি স্ক্র্যাপ করছেন তা থেকে কীভাবে ডেটাসেট তৈরি করবেন তা সন্ধান করুন।
লিংকগুলি বের করুন কোনও ওয়েবসাইট থেকে লিঙ্কগুলি বের করুন - কীভাবে কোনও সম্পূর্ণ ওয়েবসাইট থেকে সমস্ত HTML লিঙ্কগুলি নিষ্কাশন করতে হয় তা সন্ধান করুন save আপনি চান ফর্ম্যাট এ।
পাঠ্য নির্বাচন করুন নিদর্শন ব্যবহার করে পাঠ্য থেকে মান আহরণ করা - পাঠ্যের ব্লকগুলি থেকে মানগুলি বের করতে কীভাবে নিদর্শনগুলি ব্যবহার করতে হয় তা সন্ধান করুন।
OCR করুন চিত্রগুলি থেকে পাঠ্য বের করুন - কীভাবে চিত্রের মধ্যে থাকা পাঠ্য নিষ্কাশন করবেন তা সন্ধান করুন।
ডেটা সেটটি কিভাবে একটি ডেটাসেট প্যাড - প্যাডিং ব্যবহার করে আপনার উত্তোলিত ডেটা আরও ভাল ফর্ম্যাট করুন।
বিন্যাস অ্যারে পরিচালনা - স্ক্র্যাপগুলির মধ্যে সহজে অ্যারে পরিচালনা করতে কীভাবে বিশেষ অ্যারে ইউটিলিটি পদ্ধতি ব্যবহার করবেন তা সন্ধান করুন।
কর্ম স্ক্র্যাপের সময় একবারে কোনও ক্রিয়া সম্পাদন করুন - পুরো স্ক্র্যাপের সময় একবারে কীভাবে কোনও ক্রিয়া সম্পাদন করা যায় তা সন্ধান করুন।
পরিশোধন করা স্ক্র্যাপড ডেটা পরিমার্জন - কীভাবে আপনার স্ক্র্যাপগুলি থেকে অ-প্রয়োজনীয় ডেটা সরিয়ে ফেলতে হবে তা আবিষ্কার করুন।
ই-মেইল ঠিকানা কোনও ওয়েবসাইট থেকে ইমেল ঠিকানাগুলি স্ক্র্যাপ করুন - কোনও ওয়েবসাইট থেকে সমস্ত ইমেল ঠিকানা কীভাবে স্ক্র্যাপ করবেন তা সন্ধান করুন।
স্ক্রিনশট স্ক্রিনশট পুরো ওয়েবসাইট into পিডিএফ বা ছবি - একটি সম্পূর্ণ ওয়েবসাইটের প্রতিটি পৃষ্ঠা ক্যাপচার করতে কীভাবে গ্র্যাবিজিট'র ওয়েব স্ক্র্যাপার ব্যবহার করবেন তা সন্ধান করুন।
স্ক্রিনশট কাঠামোগত কাঠামোগত স্ট্রাকচার্ড তথ্য বের করুন - অনুভূতি, নাম, অবস্থান এবং সংস্থাগুলি নিষ্কাশন করতে GrabzIt ব্যবহার করুন।

এইচটিএমএল ব্যতীত অন্যান্য সামগ্রী স্ক্র্যাপিং ping

ওয়েব স্ক্র্যাপার যখন পিডিএফ, এক্সএমএল, জেএসওএন এবং আরএসএস জুড়ে আসে তখন এটি এটিকে একটি এইচটিএমএল অনুমানের মধ্যে রূপান্তরিত করে, যা আমাদের ওয়েব স্ক্র্যাপারটিকে সঠিকভাবে পার্স করতে দেয় এবং আপনি কোন সামগ্রীটি বের করতে চান তা নির্বাচন করতে পারবেন। উদাহরণস্বরূপ, আপনি যদি JSON ডেটা পার্স করতে চান তবে এটি ডেটা রূপান্তর করবে intওএ হায়ারারচাল এইচটিএমএল প্রতিনিধিত্ব পাশ হিসাবে প্রদর্শিত হয়। এটি আপনাকে সাধারণ হিসাবে স্ক্র্যাপ নির্দেশাবলী তৈরি করতে দেয়।

অনুরূপভাবে যখন স্ক্র্যাপার একটি পিডিএফ ডকুমেন্ট লোড করে, পিডিএফ রূপান্তরিত হয় into চিত্রগুলি, হাইপারলিঙ্কস, পাঠ্য এবং সারণীগুলি নির্বাচন করতে এবং স্ক্র্যাপ করার অনুমতি দেওয়ার জন্য এইচটিএমএল। তবে পিডিএফের কোনও আসল কাঠামো না থাকায় টেবিলগুলি হিউরিস্টিক্স ব্যবহার করে সনাক্ত করা হয় এবং তাই সর্বদা নির্ভুল হয় না।

রফতানির বিকল্প

এই ট্যাবটি আপনাকে কীভাবে আপনার ফলাফলগুলি এক্সেল স্প্রেডশিট, এক্সএমএল, জেএসএন, সিএসভি, এসকিউএল কমান্ড, বা এইচটিএমএল নথি সহ আপনার বিকল্পগুলি রফতানি করতে চান তা চয়ন করতে সহায়তা করে allows অতিরিক্তভাবে, এই ট্যাবটি জিপড স্ক্র্যাপের ফলাফলগুলি সেট করার অনুমতি দেয়। আপনি যদি কেবল ফাইলগুলি ডাউনলোড করছেন বা ওয়েব ক্যাপচারগুলি তৈরি করছেন তবে রফতানির বিকল্প চয়ন করার দরকার নেই কারণ আপনি কেবলমাত্র একটি জিপ ফাইল পাবেন যাতে ফলাফল থাকবে। আপনি কীভাবে ফলাফল প্রেরণ করতে চান তা নির্দিষ্ট করতে এই ট্যাবটি আপনাকে অনুমতি দেয়। এর মাধ্যমে ফলাফল পাঠাতে পারেন আমাজন S3, ড্রপবক্স, ইমেলের বিজ্ঞপ্তি, FTP- র এবং অম্রো.

চূড়ান্ত বিকল্পটি একটি কলব্যাক ইউআরএল, যা আমাদের ব্যবহার করে স্ক্র্যাপের ফলাফলগুলি আপনার অ্যাপ্লিকেশনটিতে প্রক্রিয়া করার অনুমতি দেয় স্ক্র্যাপ এপিআই.

জিপড ফলাফলগুলির ফাইলের নাম বা প্রতিটি ডেটা ফাইল আপনি যদি তাদের আলাদাভাবে প্রেরণের জন্য অনুরোধ করেন তবে ডিফল্ট ফাইল নাম ব্যবহার করুন বিকল্পটি চেক করে এবং আপনার পছন্দসই ফাইল নামটি সেট করে সেট করা যেতে পারে।

তফসিল স্ক্র্যাপ

ওয়েব স্ক্র্যাপ তৈরি করার সময় স্ক্র্যাপ স্ক্র্যাপ ট্যাব আপনাকে যখন স্ক্র্যাপটি শুরু করতে চায় এবং আপনি যদি এটি পুনরাবৃত্তি করতে চান তবে এটি কত ঘন ঘন এটি করা উচিত তা সেট করতে দেয়।

নজরদারি এবং ডিবাগিং স্ক্র্যাপগুলি

একবার ওয়েব স্ক্র্যাপ শুরু হয়ে গেলে স্থিতি আইকনটিতে পরিবর্তিত হবে এবং প্রক্রিয়াজাত পৃষ্ঠাগুলি সময়ের সাথে সাথে বৃদ্ধি শুরু করবে। স্ক্র্যাপগুলির অগ্রগতির একটি আসল সময়ের স্ন্যাপশট নিয়মিতভাবে শেষ ওয়েব পৃষ্ঠার নিয়মিত স্ক্রিনশট সহ স্ক্র্যাপের মুখোমুখি হওয়া একটি লগ ফাইল তৈরি করা হয়। এটি আপনাকে স্ক্র্যাপের সময় কী হচ্ছে তা দেখতে দেয়। এই তথ্যটি খুঁজতে, আপনার স্ক্র্যাপের পাশের প্রসারিত আইকনে ক্লিক করুন এবং ক্লিক করুন দর্শক আপনি স্ক্র্যাপ জন্য intআগ্রহী। আপনার স্ক্র্যাপের নির্দেশাবলীতে কোনও সমস্যা আছে যেমন সমস্যা আছে কিনা তা বিশদ করা উচিত।

স্ক্র্যাপ সফলভাবে শেষ হয়ে গেলে স্থিতি আইকনটি স্যুইচ হবে , যদি ভিউয়ারটি খোলার দ্বারা কোনও ফলাফল না পাওয়া যায় তবে লগ এবং শেষ স্ক্রিনশট আপনাকে ভুল হতে পারে বলে দিতে পারে।

লগগুলিতে জানানো সবচেয়ে সাধারণ সমস্যাগুলির মধ্যে একটি এটি হল যে পৃষ্ঠাটি স্ক্র্যাপ করতে পর্যাপ্ত পরিমাণে বিলম্ব হতে পারে না, প্রায়শই এতে একটি ছোট্ট বৃদ্ধি ঘটে পৃষ্ঠা লোড বিলম্ব পাওয়া যায় স্ক্র্যাপের বিকল্পগুলি ট্যাব বেশিরভাগ ওয়েবসাইটের জন্য যথেষ্ট।