ওয়েব স্ক্র্যাপ তৈরি করতে আপনাকে নীচের ট্যাবগুলিতে ছড়িয়ে থাকা পাঁচ ধরণের তথ্য নির্দিষ্ট করতে হবে।
স্ক্র্যাপ বিকল্প ট্যাবে ওয়েব স্ক্র্যাপ কাস্টমাইজ করতে নীচের সমস্ত বৈশিষ্ট্য উপলব্ধ।
স্ক্র্যাপের নাম স্ক্র্যাপের নাম।
লিঙ্কগুলি অনুসরণ করুন স্ক্র্যাপার লিঙ্কগুলি কীভাবে অনুসরণ করা উচিত সে সম্পর্কে নিম্নলিখিত বিকল্পগুলি সরবরাহ করে:
ফাইল ডাউনলোডগুলি উপেক্ষা করুন একবারে কোনও লিঙ্ক সেট করুন, যা দেখার পরে ফাইল ডাউনলোডের কারণ হয় না cause
Robots.txt ফাইল উপেক্ষা করুন যদি সেট করা থাকে তবে স্ক্র্যাপার ওয়েবসাইটের মালিক দ্বারা ক্রল হওয়া থেকে বাদ দেওয়া ওয়েব পৃষ্ঠাগুলি দেখতে পারেন।
ত্রুটি পৃষ্ঠাগুলি উপেক্ষা করুন যদি ওয়েব স্ক্র্যাপার সেট করা হয় তবে ত্রুটির প্রতিবেদন করে এমন কোনো ওয়েব পৃষ্ঠা এড়িয়ে যাবে। তাই যেকোনো HTTP স্ট্যাটাস কোড 400 বা তার বেশি।
সদৃশগুলি উপেক্ষা করুন যদি সেট করা থাকে তবে এটি আপনি নির্ধারিত মিলের চেয়ে সমান বা তার চেয়ে বেশি পাতাগুলি উপেক্ষা করবে, উদাহরণস্বরূপ আপনি 95% একই পৃষ্ঠাগুলি উপেক্ষা করতে পারেন।
সীমাবদ্ধ স্ক্র্যাপ থামানোর আগে ওয়েব স্ক্র্যাপার কত পৃষ্ঠাতে স্ক্র্যাপ হওয়া উচিত তা আপনাকে নির্দিষ্ট করতে দেয়।
আমার টাইমজোন ব্যবহার করুন যদি সেট করা থাকে তবে এটি ইঙ্গিত করে যে ওয়েব স্ক্র্যাপার কোনও তারিখকে স্ক্র্যাপ করে রূপান্তর করার চেষ্টা করা উচিত into আপনার স্থানীয় সময় অঞ্চল। আপনার সময় অঞ্চলটি অ্যাকাউন্ট পৃষ্ঠায় সেট করা যেতে পারে।
অবস্থান ভৌগলিক অবস্থান থেকে ওয়েব স্ক্র্যাপার স্ক্র্যাপটি সম্পাদন করবে। যদি লক্ষ্য ওয়েবসাইটের অবস্থানের ভিত্তিতে বিধিনিষেধ থাকে তবে এটি কার্যকর হতে পারে।
ডিফল্ট তারিখ ফর্ম্যাট তারিখগুলি রূপান্তর করার সময় যেখানে তারিখের ফর্ম্যাট নির্ধারণ করা যায় না, ওয়েব স্ক্র্যাপার পরিবর্তে এই নির্বাচিত বিন্যাসে ডিফল্ট হবে।
পৃষ্ঠা লোড বিলম্ব এই মুহুর্তে মিলি সেকেন্ডে ওয়েব স্ক্র্যাপার কোনও পৃষ্ঠা বিশ্লেষণের আগে অপেক্ষা করা উচিত। যদি কোনও পৃষ্ঠায় প্রচুর এজেএক্স থাকে বা লোড হতে ধীর হয় তবে এটি খুব কার্যকর।
টার্গেট ওয়েবসাইট ট্যাবে আপনি যে ওয়েবসাইটগুলি থেকে ডেটা উত্তোলন করতে চান তা নির্দিষ্ট করে। কোনও ওয়েবসাইট থেকে ডেটা উত্তোলনের জন্য স্ক্র্যাপ সরঞ্জামটি জানাতে আপনাকে প্রথমে আপনি যে মূল ইউআরএল তা নির্দিষ্ট করতে হবে intউদ্রেক করা যেমন http://www.example.com/shop/
এটি ছিল স্ক্র্যাপার তার স্ক্র্যাপটি শুরু করবে, এটি একটি সাধারণ ওয়েবপৃষ্ঠা, পিডিএফ ডকুমেন্ট, এক্সএমএল ডকুমেন্ট, জেএসএন নথি, আরএসএস ফিড বা সাইটম্যাপ হতে পারে। যদি এটি কোনও ওয়েব পৃষ্ঠা বা পিডিএফ ডকুমেন্ট না হয় তবে স্ক্র্যাপারটি ফাইলে সমস্ত লিঙ্ক সন্ধান করবে এবং প্রত্যেকে দেখতে পাবে।
কেবলমাত্র লক্ষ্যযুক্ত ইউআরএলে প্রাপ্ত লিঙ্কগুলি অনুসরণ করতে এবং পরবর্তী কোনও পৃষ্ঠাগুলি নয় যা আপনি সেট করতে পারেন লিঙ্কগুলি অনুসরণ করুন স্ক্র্যাপ বিকল্প থেকে প্রথম পৃষ্ঠায়। এটি কেবলমাত্র স্ক্র্যাপের বাকি অংশগুলিকে বীজ দিতে লক্ষ্যযুক্ত ইউআরএল ব্যবহার করবে।
ডিফল্টরূপে, ওয়েব স্ক্র্যাপার প্রতিটি লিঙ্কে এটি অনুসন্ধান করা প্রতিটি লিঙ্ক অনুসরণ করে। আপনি যদি লিঙ্ক করতে চান তবে সীমাবদ্ধ রাখতে চান ওয়েব স্ক্র্যাপার নীচে, এটি করার একটি সহজ উপায় হল ইউআরএল প্যাটার্ন নির্দিষ্ট করা। এই বিন্যাসের সাথে একটি ইউআরএল নির্দিষ্ট করে ওয়াইল্ড কার্ড হিসাবে নির্দিষ্ট করে বোঝায় যে বিন্যাসের এই অংশে কোনও অক্ষর উপস্থিত থাকতে পারে। এই ক্ষেত্রে http://www.example.com/*/articles/*
ওয়েবসাইটের মূল থেকে দ্বিতীয় ডিরেক্টরি হিসাবে নিবন্ধ রয়েছে এমন কোনও URL এর স্ক্র্যাপ করবে।
ইউআরএল প্যাটার্ন সংজ্ঞায়িত করার আরও সীমাবদ্ধ উপায় হ'ল বিকল্প সংজ্ঞা দেওয়া। উদাহরণস্বরূপ এই উদাহরণটি কেবল স্টোর বা খবরের সাথে মিলবে:
http://www.example.com//*
সুতরাং এটি এই মেলে http://www.example.com/store/products/1
কিন্তু না http://www.example.com/about/
.
অথবা বিকল্পভাবে এটা সম্ভব কিন্তু কিছু কিছুর সাথে মেলে। উদাহরণস্বরূপ এই উদাহরণটি স্টোর বা খবরের সাথে মিলবে না:
http://www.example.com//*
সুতরাং এটি এই মেলে http://www.example.com/about/
কিন্তু না http://www.example.com/store/products/1
!
বীজ ইউআরএল ব্যবহারকারীদের ইউআরএলগুলির একটি তালিকা নির্দিষ্ট করার অনুমতি দেয় যা অবশ্যই ওয়েব স্ক্র্যাপার দ্বারা ক্রল করা উচিত be আপনি যদি কেবল বীজ ইউআরএলগুলি স্ক্র্যাপড সেটটি সেট করতে চান লিঙ্কগুলি অনুসরণ করুন স্ক্র্যাপ বিকল্পগুলি থেকে কোন পৃষ্ঠা স্ক্র্যাপ বিকল্প ট্যাবে।
টার্গেট ওয়েবসাইটগুলি ট্যাবে বীজ ইউআরএল সেট করতে, টার্গেট যুক্ত বোতামটি ক্লিক করুন তারপরে বীজ ইউআরএলস সেট করুন চেকবক্সটি চেক করুন এবং প্রতিটি ইউআরএল পৃথক লাইনে স্ক্র্যাপ করতে নির্দিষ্ট করুন।
বিকল্প হিসাবে আপনি টেম্পলেট ইউআরএল ব্যবহার করে স্বয়ংক্রিয়ভাবে বীজ ইউআরএল উত্পন্ন করতে পারবেন, এটি একটি একক ইউআরএল যা একটি URL পরিবর্তনশীল অন্তর্ভুক্ত করে। একটি ইউআরএল ভেরিয়েবল পুনরাবৃত্ত হওয়ার জন্য বিভিন্ন সংখ্যার সীমা নির্দিষ্ট করে।
শুরুর সংখ্যাটি এমন একটি নম্বর যা ইউআরএল ভেরিয়েবলের গণনা শুরু করা উচিত, সমাপ্ত নম্বরটি এমন একটি নম্বর যা ইউআরএল ভেরিয়েবল গণনা বন্ধ করবে, পুনরাবৃত্ত সংখ্যাটি এমন একটি সংখ্যা যা ইউআরএল ভেরিয়েবলের প্রতিটি পুনরাবৃত্তির জন্য সংখ্যাটি বাড়বে will
উদাহরণস্বরূপ নীচের টেম্পলেট ইউআরএল
http://www.example.com/search?pageNo=
এরপরে নিম্নলিখিত বীজের ইউআরএল তৈরি করা হবে:
ইউআরএল যেমন পোস্টের জন্য লগইন ফর্মের জন্য পরামিতিগুলির সাথে একটি URL নির্দিষ্ট করে। তা করতে লক্ষ্য URL টি পাঠ্য বাক্সে ফর্ম URL নির্দিষ্ট করুন এবং প্রয়োজনীয় পোস্ট প্যারামিটারগুলি যুক্ত করুন। ভেরিয়েবলের পোস্টের মানগুলিতে বিশেষ গ্র্যাবজিট ভেরিয়েবলগুলিও অন্তর্ভুক্ত থাকতে পারে যেমন:
- দুই-অঙ্কের মান হিসাবে দিন
- দুই-অঙ্কের মান হিসাবে মাস
- চার অঙ্কের মান হিসাবে বছর
- দুই-অঙ্কের মান হিসাবে ঘন্টা
- দুই-অঙ্কের মান হিসাবে মিনিট
- দুই-অঙ্কের মান হিসাবে দ্বিতীয়
স্ক্র্যাপের নির্দেশাবলী লক্ষ্য স্ক্র্যাপিংয়ের স্ক্র্যাপ করার সময় কী কী পদক্ষেপ নেওয়া উচিত তা ওয়েব স্ক্র্যাপকে বলে। স্ক্র্যাপ নির্দেশিকা ট্যাব স্ক্র্যাপ উইজার্ডটি ডিফল্টরূপে দেখায় যা আপনার প্রয়োজনীয় স্ক্র্যাপ নির্দেশাবলী যুক্ত করা সহজ করে তোলে। এই উইজার্ডটি ব্যবহারের একটি ভাল উদাহরণটি পণ্য তালিকা এবং বিশদ স্ক্র্যাপিং টিউটোরিয়াল.
একবার আপনি স্ক্র্যাপিং শুরু করতে প্রস্তুত টিপুন নতুন স্ক্র্যাপ নির্দেশ যুক্ত করুন লিঙ্ক।
এটি উইজার্ডটি খুলবে এবং স্বয়ংক্রিয়ভাবে লক্ষ্য URLটি লোড করবে, আপনাকে যা স্ক্র্যাপ করতে হবে তা অবিলম্বে নির্বাচনের অনুমতি দেয়। যদি কোনও ওয়েবপৃষ্ঠা বা পিডিএফ ডকুমেন্ট লোড করা থাকে তবে আপনি যে কোনও লিঙ্কে ক্লিক করতে পারেন এবং এটি স্বাভাবিক হিসাবে কাজ করবে, উদাহরণস্বরূপ অন্য ওয়েবপৃষ্ঠায় নেভিগেশন। আপনি এই পোটিতে স্ক্রিনের নীচে, ক্রিয়াগুলির মধ্যে একটি চয়ন না করা পর্যন্তint সামগ্রীটির যে কোনও ক্লিক আপনি এক্সট্রাক্ট করতে বা হেরফের করতে চান এমন HTML উপাদান নির্বাচন করবে।
স্ক্র্যাপের নির্দেশাবলীর বিষয়ে প্রথম জিনিসটি বুঝতে হবে যে তারা প্রতিটি ওয়েব পৃষ্ঠায় ডিফল্টরূপে কার্যকর করা হয়। এটি বন্ধ করার উপায় হ'ল টেমপ্লেট ব্যবহারের মাধ্যমে। কোনও লিঙ্কে ক্লিক করার মতো কোনও ক্রিয়াকলাপ করার সময় একটি টেম্পলেট নির্ধারিত হতে পারে এবং যাতে যখনই স্ক্র্যাপার সেই লিঙ্কটিতে যায় বা সেই বোতামটি ক্লিক করে তখন তা সনাক্ত করতে পারে যে এটি নির্ধারিত টেম্পলেটটির অন্তর্ভুক্ত। এটি বিভিন্ন পৃষ্ঠার প্রকারকে সংজ্ঞায়িত করার অনুমতি দেয়। উদাহরণস্বরূপ আপনার কাছে এমন একটি পণ্য বিভাগের পৃষ্ঠা থাকতে পারে যাতে কিছু সংক্ষিপ্তসার তথ্য এবং তারপরে পণ্য সম্পর্কিত তথ্য সহ একটি বিশদ পৃষ্ঠা রয়েছে। উভয় পৃষ্ঠার সম্ভবত বিভিন্ন স্ক্র্যাপ নির্দেশাবলীর একটি পৃথক সেট প্রয়োজন হবে।
শুরু করতে বেছে নিন ক্লিক ক্রিয়া, তারপরে আপনি একবার ক্রিয়া সম্পাদন করতে এবং আইটেমটি ক্লিক করতে চাইলে আইটেমগুলি নির্বাচন করুন পরবর্তী বোতামটিতে টেমপ্লেটের নাম লিখুন একটি টেম্পলেট তৈরি করুন পাঠ্য বাক্স এখনই যখনই স্ক্র্যাপার এই ক্রিয়াকলাপগুলি কার্যকর করে, ফিরে আসা টেম্পলেটটি আপনার সরবরাহ করা নাম হবে।
তারপরে কোনও স্ক্র্যাপের নির্দেশকে একটি নির্দিষ্ট টেম্পলেট বরাদ্দ করার জন্য আপনাকে এক্সিকিউট ইন ড্রপ ডাউন তালিকা, যা স্ক্র্যাপ নির্দেশ যুক্ত হওয়ার ঠিক আগে উপস্থিত হওয়া অপশন উইন্ডোতে উপস্থিত হয়। টেমপ্লেট নির্বাচন করার সময় তিনটি প্রধান বিকল্প হ'ল:
আপনি একবার এই বিকল্পগুলির মধ্যে একটি নির্বাচন করে নিলে স্ক্র্যাপ নির্দেশ কেবল নির্দিষ্ট টেম্পলেটটিতেই কার্যকর করা হবে।
আপনি লক্ষ্য করবেন যে আপনি যখন নির্বাচন করেন ডেটা এক্সট্রাক্ট করুন কর্ম. স্ক্রিনের নীচে বাম দিকের কোণটি আপনাকে উপরের উইন্ডোতে একটি এইচটিএমএল উপাদান নির্বাচন করতে বা একটি বিশ্বব্যাপী পৃষ্ঠা সম্পত্তি চয়ন করার জন্য আমন্ত্রণ জানিয়েছে।
বিশ্বব্যাপী পৃষ্ঠার বৈশিষ্ট্যটি ব্যবহার করতে, ক্লিক করুন বিশ্বব্যাপী পৃষ্ঠা সম্পত্তি লিঙ্ক তারপরে আপনি চালিয়ে যেতে চান তা নিশ্চিত করুন। আপনার এখন বৈশিষ্ট্যগুলির একটি তালিকা থাকবে যা পৃষ্ঠাটি থেকে সরাসরি সরানো যেতে পারে। উদাহরণস্বরূপ: পৃষ্ঠা শিরোনাম।
একটি চয়ন করতে, কেবল বিকল্পগুলির তালিকা থেকে এটি নির্বাচন করুন এবং ক্লিক করুন পরবর্তী ডেটা যোগ করতে ডেটা সেটটি.
আপনি যদি পুরো পৃষ্ঠায় অন্তর্ভুক্ত না করে নির্দিষ্ট HTML উপাদানগুলিতে ডেটা আহরণ করতে চান তবে আপনাকে সংশ্লিষ্ট HTML উপাদানগুলিতে ক্লিক করতে হবে, আপনি একক বা একাধিক আইটেম নির্বাচন করতে পারেন। তবে আপনি যদি একাধিক আইটেম নির্বাচন করছেন তবে দয়া করে চেষ্টা করুন এবং একাধিক আইটেমগুলি নির্বাচন করুন যা কলামে একাধিক সারিগুলির মতো একই, কারণ যদি স্ক্র্যাপার কোনও নিয়ম তৈরি করতে না পারে যা অনন্যভাবে ডেটার নির্বাচিত সংগ্রহকে সনাক্ত করতে পারে তবে স্ক্র্যাপের নির্দেশনা হ'ল না তৈরি হতে সক্ষম হতে। তদুপরি আপনি যদি ক্লিক করছেন এমন একাধিক আইটেমগুলিকে আমাদের ওয়েব স্ক্র্যাপার উইজার্ড দ্বারা পুনরাবৃত্তি তথ্য হিসাবে চিহ্নিত করা হয়েছে, তবে একই গ্রুপে সমস্ত পুনরাবৃত্তি তথ্য স্বয়ংক্রিয়ভাবে নির্বাচিত হবে be আপনি একবার আপনার সমস্ত একক বা একাধিক আইটেম নির্বাচন করলে স্ক্রিনের নীচে বাম থেকে নিষ্কাশনের জন্য একটি বৈশিষ্ট্য চয়ন করুন এবং তারপরে ক্লিক করুন পরবর্তী.
ডেটাसेट পর্দা আপনাকে কীভাবে ডেটা প্রক্রিয়াজাত করা যায় তা পরিবর্তনের অনুমতি দেয়, উদাহরণস্বরূপ আপনি এটির মধ্যে ডেটাসেট এবং কলামগুলির নাম পরিবর্তন করতে পারেন, নামটির জন্য নামটিতে ক্লিক করুন। আপনি যখন একটি ডেটাসেটে একটি কলাম যুক্ত করবেন তখন আপনাকে যে টেম্পলেটটি প্রয়োগ করা উচিত তা চয়ন করতে হবে the কলামের নীচে অবস্থিত ড্রপ ডাউন তালিকায় ক্লিক করে আপনি এটি পরিবর্তন করতে পারেন।
প্রায়শই ডেটা বের করার সময়, কিছু পুনরাবৃত্তি আইটেমগুলিতে অসামঞ্জস্যভাবে পুনরাবৃত্তি করা সাধারণ, সঠিক সারিগুলি এখনও একে অপরের সাথে যুক্ত রয়েছে তা নিশ্চিত করার জন্য লিঙ্ক কলাম মানদণ্ড, ডেটাসেটের সর্বাধিক ধারাবাহিক কলামের সাথে বেমানান কলামগুলিকে লিঙ্ক করতে।
ডেটাসেটে আরও ডেটা যুক্ত করতে ক্লিক করুন বোতাম বা ক্লিক করুন
ডেটাसेट থেকে ডেটা অপসারণ করতে, বা
পুরো ডেটাसेट মুছে ফেলতে। ডেটাসেটটি ডেটাতে বিভিন্ন মানদণ্ড প্রয়োগ করার অনুমতি দেয়, এটি শীর্ষ থেকে পছন্দসই ক্রিয়াটি নির্বাচন করুন এবং তারপরে মানদণ্ড প্রয়োগের জন্য প্রাসঙ্গিক কলামে ক্লিক করুন। আপনি যদি মানদণ্ড যুক্ত করে ভুল করেন তবে ক্লিক করুন
বোতাম.
বিভিন্ন মানদণ্ডের ধরণের তালিকা এবং সেগুলি কীভাবে ব্যবহার করবেন তা এখানে রয়েছে:
আপনি যখন উপরোক্ত ক্রিয়াকলাপগুলির মধ্যে একটি নির্বাচন করেছেন এটি যদি এটি একাধিক কলামগুলিকে প্রভাবিত করতে পারে তবে এটি আপনাকে জিজ্ঞাসা করবে যে আপনি কেবল এটি কলামগুলির বা তার সমস্তগুলির একটি উপসেটকে প্রভাবিত করতে চান কিনা। বেশিরভাগ ক্ষেত্রে আপনি এটি সমস্ত কলামকেই প্রভাবিত করতে চান তবে কিছু পরিস্থিতিতে কলামগুলি প্রভাবিত করে সীমাবদ্ধ করা কার্যকর। উদাহরণস্বরূপ, আপনি যদি একটি সিরিজ নির্বাচন করছেন লেবেল এবং মান, যা ওয়েব পৃষ্ঠাগুলিতে অবস্থান পরিবর্তন করে আপনি সমস্ত লেবেল এবং মান নির্বাচন করতে পারেন। তারপরে ডেটাসেটে এটি পছন্দসই লেবেলে সীমাবদ্ধ করতে সমান অপারেশনটি ব্যবহার করুন এবং নির্দিষ্ট করুন যে কেবলমাত্র লেবেল এবং মান কলামগুলিই প্রভাবিত হবে। এটি নিশ্চিত করবে যে অন্যান্য কলামগুলি সারিগুলি মুছে ফেলাতে প্রভাব ফেলবে না, সম্পূর্ণতার জন্য এটি লেবেল কলামটি আড়াল করতে দরকারী।
আপনি যা যা করতে চান তার মধ্যে একবার পরিবর্তন করার পরে ক্লিক করুন পরবর্তী এবং, আপনার স্ক্র্যাপ নির্দেশাবলী স্ক্র্যাপে যুক্ত করা হবে। আপনি যদি চান তবে আপনাকে আরও স্ক্র্যাপ নির্দেশাবলী যুক্ত করার বিকল্প রয়েছে।
কোনও ওয়েবপৃষ্ঠা স্ক্র্যাপ করার আগে হেরফের করা যেতে পারে, ক্লিক করে, টাইপ করে এবং ড্রপ ডাউন থেকে মানগুলি নির্বাচন করে। এটি মনে রাখা গুরুত্বপূর্ণ যে যদিও এটি কোনও নতুন ওয়েবপৃষ্ঠায় স্ক্র্যাপ নির্দেশাবলী লোড করতে পারে তবে সমস্ত প্রযোজ্য স্ক্র্যাপ নির্দেশাবলী কার্যকর না হওয়া পর্যন্ত পুনরায় আরম্ভ হবে না।
একটি ওয়েবপৃষ্ঠা কৌশলগতভাবে যেকোন একটি বেছে নিন এলিমেন্ট ক্লিক করুন, এলিভার হোল, স্ক্রোল, টাইপ টেক্সট or ড্রপ ডাউন তালিকা মান নির্বাচন করুন কর্ম। আপনি যদি একটি ক্লিক ক্রিয়া সম্পাদন করে থাকেন তবে আপনি ওয়েবপৃষ্ঠায় যে কোনও সংখ্যক উপাদানকে ক্লিক করতে পারেন। অন্যথায় আপনাকে অবশ্যই একটি উপযুক্ত এইচটিএমএল উপাদান নির্বাচন করতে হবে, উদাহরণস্বরূপ একটি পাঠ্য বাক্সে পাঠ্য টাইপ করা উচিত। তারপর ক্লিক করুন পরবর্তী। এটি একটি বিকল্প বাক্স খুলবে যা আপনাকে অ্যাকশনটি সম্পূর্ণ করতে দেয়। পাঠ্যটি টাইপ করার সময় এবং একটি টাইপ করতে বা বেছে নেওয়ার জন্য একটি ড্রপ ডাউন থেকে নির্বাচন করার সময় যথাক্রমে চয়ন করতে হবে। তিনটি ক্রিয়াকলাপের জন্য অপশনগুলি একই।
আপনি যদি চান তবে আপনি টেমপ্লেটটি নির্বাচন করতে পারেন এই ক্রিয়াকলাপটি কার্যকর করা উচিত এবং ক্লিক ক্রিয়াকলাপটি শেষ হয়ে গেলে টেমপ্লেট কীভাবে প্রয়োগ হয় তার জন্য ক্লিক করুন। যাইহোক, ক্লিক পৃষ্ঠায় একই পৃষ্ঠায় একাধিক ক্লিক সম্পাদন করে একটি নতুন টেমপ্লেট বরাদ্দ করা ভাল ধারণা নয়, যেমন ইনলাইন পপআপগুলি খুলতে বা পর্দায় জিনিসগুলিকে প্রদর্শিত করা। এটি কারণ যদি ক্লিক ক্রিয়াটি কেবলমাত্র নির্দিষ্ট টেম্পলেটগুলিতে কার্যকর হয় তবে প্রথম ক্লিকের দ্বারা নির্ধারিত নতুন টেম্পলেটটি পুনরায় সেট করা হবে না এবং সুতরাং স্ক্র্যাপটি কীভাবে লেখা হয়েছিল তার উপর নির্ভর করে ভবিষ্যতে ক্লিকগুলি একই পৃষ্ঠাতে কার্যকর করা বন্ধ করতে পারে। আপনি যদি এই ক্রিয়াটি একবারে সম্পাদন করতে চান তবে আপনি সংজ্ঞাও দিতে পারেন, আপনি যদি লগইনের মতো কিছু করে থাকেন তবে তা কার্যকর intওএ ওয়েবসাইট।
প্রকার পাঠ্য বা নির্বাচন করুন ড্রপ ডাউন তালিকা মান ক্রিয়াগুলি আপনাকে যথাক্রমে পাঠ্যের একাধিক আইটেম টাইপ করতে বা একাধিক নির্বাচন বাক্স নির্বাচন করতে দেয়। এগুলি স্ক্র্যাপ নির্দেশাবলী ক্লিক করে সম্পাদনা করা যেতে পারে পরিবর্তনীয় পরিবর্তন বা দেখুন বাম স্ক্রিনশটে প্রদর্শিত হিসাবে বোতাম।
উদাহরণস্বরূপ, আপনি যদি কোনও অনুসন্ধান বাক্সে নামের একটি তালিকা টাইপ করতে চান তবে এটি গুরুত্বপূর্ণ হতে পারে। অনুসন্ধান বাক্সে যখন কোনও মান থাকে তখনই কোনও ফর্ম জমা দেওয়া হয় তা নিশ্চিত করার জন্য পাঠ্য সাফল্যের সাথে টাইপ করা প্রতিটি সময় একটি টেম্পলেট সেট করা যেতে পারে into এই টেমপ্লেটটি সেট না করা থাকলে পাঠ্যবক্স এবং একটি বোতামের ক্লিক ক্রিয়া সম্পাদিত হবে না। ক্লিক অ্যাকশনটি সম্পাদন করার পরে প্রক্রিয়াটি পুনরায় সেট করার জন্য টেমপ্লেটটিকে অন্য কোনও কিছুর পরিবর্তিত করা দরকার।
ওয়েবসাইটগুলি চালিত করে এমন ক্রিয়াকলাপগুলি কার্যকর করার পরে, ক্রিয়াগুলি ক্রমাগত চালিয়ে যাওয়ার আগে AJAX সামগ্রীটি লোড করার অনুমতি দেওয়ার জন্য যদি ক্রিয়াগুলি AJAX কার্যকারিতা শুরু করে তবে কিছুক্ষণ অপেক্ষা করা কার্যকর। আপনি এই ক্ষেত্রে একটি বিলম্ব যোগ করে এটি করতে পারেন এক্সিকিউশন পরে অপেক্ষা করুন টেক্সট বক্স।
কিছু শর্ত পূরণ হয়ে গেলে আপনি সরাসরি আলাদা ইউআরএল-এ যেতে চান। এটি ব্যবহার করতে URL এ যান অ্যাকশন, যা কেবল তখনই উপস্থিত হবে যখন কমপক্ষে একটি টেম্পলেট স্ক্র্যাপে সংজ্ঞায়িত করা হয়েছে এবং যখন তৈরি করা হবে তখন কোনও টেম্পলেটকে বরাদ্দ করতে হবে, অসীম লুপগুলি এড়াতে সহায়তা করতে।
অবশেষে আপনি গ্র্যাবসআইটি'র ক্যাপচার এপিআইয়ের সমস্ত আপনার ওয়েব স্ক্র্যাপগুলিতে ব্যবহার করতে পারেন, কেবল ক্যাপচার ওয়েবপেজ ক্রিয়াটি চয়ন করুন এবং আপনার পছন্দসই ক্যাপচারটি চয়ন করুন choose আপনি একবার নির্বাচন করলে এটি কার্যকর করতে কোনও টেম্পলেট নির্দিষ্ট করে স্ক্র্যাপের মধ্যে নির্দিষ্ট ওয়েব পৃষ্ঠাগুলি ক্যাপচার করতে সীমাবদ্ধ করতে পারেন পরবর্তী বোতাম.
প্রতিটি স্ক্র্যাপ নির্দেশ যুক্ত হওয়ার পরে এটি স্ক্র্যাপ নির্দেশিকা প্যানেলে দেখা যাবে, প্রতিটি স্ক্র্যাপের নির্দেশের পাশের ক্রসটি স্ক্র্যাপ নির্দেশকে মোছার অনুমতি দেয়। যদি স্ক্র্যাপের কোনও নির্দেশনা মুছে ফেলা হয় যা অন্যান্য স্ক্র্যাপ নির্দেশাবলীর দ্বারা প্রয়োজনীয় হয় তবে সেই নির্দেশাবলীও মুছে ফেলা হয়। আপনি দখল আইকন দিয়ে কোনও স্ক্র্যাপ নির্দেশাবলী টেনে স্ক্র্যাপ নির্দেশাবলীর ক্রম পরিবর্তন করতে পারেন।
আপনার যদি স্ক্র্যাপ নির্দেশিকাগুলি আরও নির্দিষ্ট উপায়ে কাস্টমাইজ করতে হয় তবে আপনাকে স্ক্র্যাপ নির্দেশাবলী ম্যানুয়ালি পরিবর্তন করতে হবে।
স্ক্র্যাপের নির্দেশাবলী জাভাস্ক্রিপ্ট ভিত্তিক এবং কোড এডিটরটি একটি সিনট্যাক্স পরীক্ষক, স্বয়ংক্রিয়-সম্পূর্ণ এবং টুলটিপ যতটা সম্ভব সহজ করার জন্য সম্পূর্ণ আসে।
কোড সম্পাদকের মূল কার্যকারিতা মেনু বিকল্পগুলির মাধ্যমে অ্যাক্সেসযোগ্য, যা স্ক্রিনশটে দেখানো হয়েছে, প্রতিটিটির উদ্দেশ্য নীচে আলাদাভাবে ব্যাখ্যা করা হয়েছে। আপনার স্ক্র্যাপের নির্দেশাবলীতে যে কোনও সিনট্যাক্স ত্রুটি কোড সম্পাদকের বাম হাতের নালীতে নির্দেশিত হয়েছে।
উইজার্ডটি আপনাকে পৃষ্ঠার অংশগুলি নির্বাচন করতে দেয় যা আপনি এক্সট্র্যাক্ট নিতে চান এবং ওয়েব ক্যাপচারগুলি তৈরি করার মতো অন্যান্য সাধারণ কাজগুলি করতে চান।
ব্যবহারকারীর কাছে স্ক্র্যাপ নির্দেশিকা কোড প্রদর্শন করে।
সমস্ত স্ক্র্যাপ নির্দেশাবলী মুছে দেয়।
পৃষ্ঠা কীওয়ার্ডটি প্রবেশ করবে into স্ক্র্যাপের নির্দেশাবলী এবং স্বয়ংক্রিয় সম্পূর্ণ খুলুন, এতে সমস্ত সম্ভাব্য রয়েছে পৃষ্ঠা ফাংশন। পৃষ্ঠা ফাংশনগুলি আপনাকে ওয়েব পৃষ্ঠা থেকে ডেটা উত্তোলনের অনুমতি দেয়।
ডেটা কীওয়ার্ড প্রবেশ করবে intহে স্ক্র্যাপ নির্দেশাবলী। ডেটা ফাংশন আপনাকে অনুমতি দেয় save তথ্য।
নেভিগেশন কীওয়ার্ড প্রবেশ করে intও কোড সম্পাদক। দ্য নেভিগেশন ফাংশন কীভাবে ওয়েব স্ক্র্যাপার লক্ষ্যবস্তু ওয়েবসাইটটি নেভিগেট করে তা নিয়ন্ত্রণ করতে দেয়।
গ্লোবাল কীওয়ার্ড প্রবেশ করে intহে স্ক্র্যাপ নির্দেশাবলী। এটি আপনাকে অ্যাক্সেস দেয় ক্রিয়াকলাপ যা বিভিন্ন ওয়েব পৃষ্ঠাগুলি পার্স করার মধ্যে ডেটা সংরক্ষণ করতে পারে। স্ক্র্যাপ নির্দেশাবলী লেখার সময় এটি মনে রাখা জরুরী যে স্ক্র্যাপ নির্দেশাবলীর মধ্যে জাভাস্ক্রিপ্ট ভেরিয়েবলের অবস্থা যখন ওয়েব পৃষ্ঠাগুলির মধ্যে স্ক্র্যাপার স্থানান্তরিত হয় তখন তা রাখা হয় না, যদি না আপনি গ্লোবাল ফাংশন ব্যবহার করেন save ভেরিয়েবল, নীচে প্রদর্শিত হিসাবে।
Global.set("myvariable", "hello"); var mrvar = Global.get("myvariable");
গ্লোবাল.সেট পদ্ধতিতে অবিচলিত প্যারামিটারের সাথে একটানা গ্লোবাল ভেরিয়েবল পাসটি তৈরি করতে নীচের মত দেখাচ্ছে।
Global.set("myvariable", "hello", true);
ইউটিলিটি কীওয়ার্ড প্রবেশ করে intহে স্ক্র্যাপ নির্দেশাবলী। এটি আপনাকে ব্যবহার করতে দেয় সাধারণ ফাংশন যা স্ক্র্যাপগুলি লেখাকে সহজ করে তোলে যেমন কোয়েরি যুক্ত করা বা মুছে ফেলার মতোstring ইউআরএল থেকে পরামিতি।
মানদণ্ড কীওয়ার্ড প্রবেশ করে intহে স্ক্র্যাপ নির্দেশাবলী। এইগুলো ক্রিয়াকলাপ আপনাকে আপনার স্ক্র্যাপের সময় নিষ্কাশিত ডেটা যেমন: ডুপ্লিকেটগুলি মুছে ফেলার অনুমতি দেয়।
আপনাকে সহজেই একটি ফিল্টার তৈরি করতে দেয়, এটি একটি ওয়েব পৃষ্ঠার মধ্য থেকে একটি নির্দিষ্ট এইচটিএমএল উপাদান নির্বাচন করার জন্য কিছু ফাংশন দ্বারা প্রয়োজনীয়। আপনার লক্ষ্য উপাদানটি থাকা উচিত এবং / অথবা উপাদানটির পিতামাতার (গুলি) সেই উপাদানটি নির্বাচন করতে হবে কেবল তা নির্বাচন করুন। নিশ্চিত করুন যে আপনি এই বিকল্পটি ক্লিক করার আগে আপনার কার্সারটিও ফিল্টারটি পাস করার জন্য ফাংশনে সঠিক জায়গায় রয়েছে।
আপনাকে স্ক্রিনশট বিকল্পগুলি সেট করতে দেয়। টুলটিপ দ্বারা চিহ্নিত হিসাবে ফাংশনের সঠিক অংশে কেবল কার্সারটি রাখুন এবং স্ক্রিনশট বিকল্পগুলি টিপুন। তারপরে আপনি চান সমস্ত অপশন বেছে নিন এবং কমান্ডটি সন্নিবেশ করুন।
Stringপাঠ্যকে সংজ্ঞায়িত করতে কোনও ওয়েব স্ক্র্যাপ করার সময় স্ক্র্যাপ নির্দেশিকায় ব্যবহৃত হয়। একজন string দ্বিগুণ দ্বারা সীমিত করা হয় ("
) বা একক উদ্ধৃতি ('
)। যদি একটি string এটি একটি ডাবল উদ্ধৃতি দিয়ে শুরু হয় এটি অবশ্যই একটি ডাবল উদ্ধৃতি দিয়ে শেষ করা উচিত, যদি ক string এটি একটি একক উদ্ধৃতি দিয়ে শুরু হয় এটি অবশ্যই একক উদ্ধৃতি দিয়ে শেষ হবে। এই ক্ষেত্রে:
"my-class"
এবং 'my-class'
একটি সাধারণ ত্রুটি যা ঘটতে পারে তা হ'ল বন্ধ string ত্রুটি, এটি যখন একটি string উপরে প্রদর্শিত হিসাবে একটি সমাপনী উদ্ধৃতি নেই বা এর মধ্যে একটি লাইন ব্রেক রয়েছে string। নিম্নলিখিত অবৈধ হয় strings:
"my
class"
"my class
এই ত্রুটিটি ঠিক করার জন্য এটি নিশ্চিত করা হয় যে তারা লাইন বিরতি না রাখে এবং মেলানো কোটগুলি যেমন রাখে না:
"my class"
এবং "my class"
কখনও কখনও আপনি একটিতে একক বা ডাবল উদ্ধৃতি উপস্থিত হতে চান string। এটির সবচেয়ে সহজ উপায় হ'ল একটিতে একটি একক উক্তি রাখা string ডাবল উদ্ধৃতি এবং একটিতে একটি ডাবল উদ্ধৃতি দিয়ে সীমিত string একক উদ্ধৃতি দিয়ে সীমিত, যেমন:
"Bob's shop"
এবং '"The best store on the web"'
বিকল্পভাবে আপনি এর মতো একটি উদ্ধৃতি থেকে বাঁচতে ব্যাকস্ল্যাশ ব্যবহার করতে পারেন:
'test\'s'
ওয়েব স্ক্র্যাপার যখন পিডিএফ, এক্সএমএল, জেএসওএন এবং আরএসএস জুড়ে আসে তখন এটি এটিকে একটি এইচটিএমএল অনুমানের মধ্যে রূপান্তরিত করে, যা আমাদের ওয়েব স্ক্র্যাপারটিকে সঠিকভাবে পার্স করতে দেয় এবং আপনি কোন সামগ্রীটি বের করতে চান তা নির্বাচন করতে পারবেন। উদাহরণস্বরূপ, আপনি যদি JSON ডেটা পার্স করতে চান তবে এটি ডেটা রূপান্তর করবে intওএ হায়ারারচাল এইচটিএমএল প্রতিনিধিত্ব পাশ হিসাবে প্রদর্শিত হয়। এটি আপনাকে সাধারণ হিসাবে স্ক্র্যাপ নির্দেশাবলী তৈরি করতে দেয়।
অনুরূপভাবে যখন স্ক্র্যাপার একটি পিডিএফ ডকুমেন্ট লোড করে, পিডিএফ রূপান্তরিত হয় into চিত্রগুলি, হাইপারলিঙ্কস, পাঠ্য এবং সারণীগুলি নির্বাচন করতে এবং স্ক্র্যাপ করার অনুমতি দেওয়ার জন্য এইচটিএমএল। তবে পিডিএফের কোনও আসল কাঠামো না থাকায় টেবিলগুলি হিউরিস্টিক্স ব্যবহার করে সনাক্ত করা হয় এবং তাই সর্বদা নির্ভুল হয় না।
এই ট্যাবটি আপনাকে কীভাবে আপনার ফলাফলগুলি এক্সেল স্প্রেডশিট, এক্সএমএল, জেএসএন, সিএসভি, এসকিউএল কমান্ড, বা এইচটিএমএল নথি সহ আপনার বিকল্পগুলি রফতানি করতে চান তা চয়ন করতে সহায়তা করে allows অতিরিক্তভাবে, এই ট্যাবটি জিপড স্ক্র্যাপের ফলাফলগুলি সেট করার অনুমতি দেয়। আপনি যদি কেবল ফাইলগুলি ডাউনলোড করছেন বা ওয়েব ক্যাপচারগুলি তৈরি করছেন তবে রফতানির বিকল্প চয়ন করার দরকার নেই কারণ আপনি কেবলমাত্র একটি জিপ ফাইল পাবেন যাতে ফলাফল থাকবে। আপনি কীভাবে ফলাফল প্রেরণ করতে চান তা নির্দিষ্ট করতে এই ট্যাবটি আপনাকে অনুমতি দেয়। এর মাধ্যমে ফলাফল পাঠাতে পারেন আমাজন S3, ড্রপবক্স, ইমেলের বিজ্ঞপ্তি, FTP- র এবং অম্রো.
চূড়ান্ত বিকল্পটি একটি কলব্যাক ইউআরএল, যা আমাদের ব্যবহার করে স্ক্র্যাপের ফলাফলগুলি আপনার অ্যাপ্লিকেশনটিতে প্রক্রিয়া করার অনুমতি দেয় স্ক্র্যাপ এপিআই.
জিপড ফলাফলগুলির ফাইলের নাম বা প্রতিটি ডেটা ফাইল আপনি যদি তাদের আলাদাভাবে প্রেরণের জন্য অনুরোধ করেন তবে ডিফল্ট ফাইল নাম ব্যবহার করুন বিকল্পটি চেক করে এবং আপনার পছন্দসই ফাইল নামটি সেট করে সেট করা যেতে পারে। অতিরিক্তভাবে, একটি টাইমস্ট্যাম্প রেখে আপনার ফাইলনামে যুক্ত করা যায় {GrabzIt_Timestamp_UTC+1}
ফাইলের নাম। +1 ইউটিসি থেকে কয়েক ঘন্টার মধ্যে অফসেটটিকে বোঝায়।
আপনি ক্লিক করে স্ক্র্যাপের ফলাফলগুলি দেখতেও পারেন ফলাফল দেখুন বোতাম, পাশে তোমার স্ক্র্যাপ, এটি যে কোনও রিয়েল-টাইম স্ক্র্যাপের ফলাফলগুলি দেখাবে, সেই সাথে গত 48 ঘন্টার মধ্যে সম্পন্ন পূর্ববর্তী ফলাফলগুলি।
When creating a web scrape the Schedule Scrape tab allows you to set when you want the scrape to start and if you want it to repeat, how frequently it should do so. The scrape can also be configured to run when a change on a web page is detected. To do this Start When a web page changes checkbox, then enter the URL of the web page to monitor, along with the সিএসএস নির্বাচক of the part of the page you are interested in. It is important a small part of the page is selected to avoid false positives due to inconsequntial changes.
একবার ওয়েব স্ক্র্যাপ শুরু হয়ে গেলে স্থিতি আইকনটিতে পরিবর্তিত হবে এবং প্রক্রিয়াজাত পৃষ্ঠাগুলি সময়ের সাথে সাথে বৃদ্ধি শুরু করবে। স্ক্র্যাপগুলির অগ্রগতির একটি আসল সময়ের স্ন্যাপশট নিয়মিতভাবে শেষ ওয়েব পৃষ্ঠার নিয়মিত স্ক্রিনশট সহ স্ক্র্যাপের মুখোমুখি হওয়া একটি লগ ফাইল তৈরি করা হয়। এটি আপনাকে স্ক্র্যাপের সময় কী হচ্ছে তা দেখতে দেয়। এই তথ্যটি খুঁজতে, আপনার স্ক্র্যাপের পাশের প্রসারিত আইকনে ক্লিক করুন এবং ক্লিক করুন দর্শক আপনি স্ক্র্যাপ জন্য intআগ্রহী। আপনার স্ক্র্যাপের নির্দেশাবলীতে কোনও সমস্যা আছে যেমন সমস্যা আছে কিনা তা বিশদ করা উচিত।
স্ক্র্যাপ সফলভাবে শেষ হয়ে গেলে স্থিতি আইকনটি স্যুইচ হবে , যদি ভিউয়ারটি খোলার দ্বারা কোনও ফলাফল না পাওয়া যায় তবে লগ এবং শেষ স্ক্রিনশট আপনাকে ভুল হতে পারে বলে দিতে পারে।
লগগুলিতে জানানো সবচেয়ে সাধারণ সমস্যাগুলির মধ্যে একটি এটি হল যে পৃষ্ঠাটি স্ক্র্যাপ করতে পর্যাপ্ত পরিমাণে বিলম্ব হতে পারে না, প্রায়শই এতে একটি ছোট্ট বৃদ্ধি ঘটে পৃষ্ঠা লোড বিলম্ব পাওয়া যায় স্ক্র্যাপের বিকল্পগুলি ট্যাব বেশিরভাগ ওয়েবসাইটের জন্য যথেষ্ট।