ওয়েব ক্যাপচার এবং রূপান্তর করার সরঞ্জামসমূহ

একটি ওয়েবসাইট এবং এর সমস্ত সামগ্রী কীভাবে ডাউনলোড করবেন?

ওয়েবসাইট

কিছু সমাপ্তি রয়েছে যখন সম্পূর্ণ ওয়েবসাইটটি ডাউনলোড করা গুরুত্বপূর্ণ, কেবলমাত্র সমাপ্ত ফলাফল নয়। তবে এইচটিএমএল ওয়েব পৃষ্ঠাগুলি, সিএসএস, স্ক্রিপ্ট এবং চিত্রগুলির মতো সংস্থানগুলি।

এটি হয়ত কারণ আপনি কোডটির ব্যাকআপ চান তবে কোনও কারণে মূল উত্সটিতে আর পাবেন না। অথবা সম্ভবত আপনি কীভাবে সময়ের সাথে একটি ওয়েবসাইটের পরিবর্তন হয়েছে তার বিশদ রেকর্ড চান।

ভাগ্যক্রমে গ্র্যাবজিট এর ওয়েব স্ক্র্যাপার কোনও ওয়েবসাইটের সমস্ত ওয়েব পৃষ্ঠায় ক্রল করে এটি অর্জন করতে পারে। তারপরে প্রতিটি ওয়েব পৃষ্ঠায় স্ক্র্যাপার পৃষ্ঠায় উল্লিখিত যে কোনও সংস্থান সহ HTML টি ডাউনলোড করে।

একটি সম্পূর্ণ ওয়েবসাইট ডাউনলোড করতে স্ক্র্যাপ তৈরি করুন

আপনার ওয়েবসাইট ডাউনলোড করা যতটা সম্ভব সহজ করার জন্য গ্র্যাবজিট একটি স্ক্র্যাপ টেম্পলেট সরবরাহ করে।

শুরু করতে এই টেম্পলেট লোড করুন.

তারপরে আপনার প্রবেশ করুন লক্ষ্য URLএরপরে, এই URL টি ত্রুটি এবং প্রয়োজনীয় পরিবর্তনগুলির জন্য স্বয়ংক্রিয়ভাবে পরীক্ষা করা হবে। রাখা স্বয়ংক্রিয়ভাবে স্ক্র্যাপ শুরু করুন চেকবক্সটি টিক দেওয়া হয়েছে, এবং আপনার স্ক্র্যাপ স্বয়ংক্রিয়ভাবে শুরু হবে।

আপনার স্ক্র্যাপ কাস্টমাইজ করা

আপনি যদি টেমপ্লেটটি পরিবর্তন করতে চান তবে এটিকে চেক করুন স্বয়ংক্রিয়ভাবে স্ক্র্যাপ শুরু করুন চেকবক্স নেই। একটি পরিবর্তন হ'ল নিয়মিত সময়সূচীতে স্ক্র্যাপ চালানো, উদাহরণস্বরূপ, কোনও ওয়েবসাইটের নিয়মিত অনুলিপি তৈরি করা। উপরে তফসিল স্ক্র্যাপ ট্যাব, কেবল ক্লিক করুন পুনরায় স্ক্র্যাপ চেকবক্স এবং তারপরে আপনি ঘন ঘন স্ক্র্যাপটি পুনরাবৃত্তি করতে চান তা নির্বাচন করুন। তারপর ক্লিক করুন আপডেট স্ক্র্যাপ শুরু করতে।

আপনার ডাউনলোড ওয়েবসাইট ব্যবহার করে

স্ক্র্যাপ শেষ হয়ে গেলে আপনি একটি জিপ ফাইল পাবেন। এরপরে জিপ ফাইলটি বের করে আনুন এবং ফাইলগুলি নামক একটি ডিরেক্টরিতে অবস্থিত এটি ডাউনলোড করা ওয়েব পৃষ্ঠাগুলি এবং ওয়েবসাইট সংস্থানগুলির মধ্যে থাকবে। ডিরেক্টরিটির মূলটিতে ডেটাহিটটিএমএল নামে একটি বিশেষ এইচটিএমএল পৃষ্ঠা থাকবে। ওয়েব ব্রাউজারে এই ফাইলটি খুলুন এবং আপনি তিনটি কলাম সহ একটি HTML টেবিল পাবেন:

  • রিসোর্স ইউআরএল - এটি ওয়েব স্ক্র্যাপার সেই সূত্রটি খুঁজে পেয়েছে। সুতরাং উদাহরণস্বরূপ: http://www.example.com/logo.jog
  • রিসোর্সের ধরণ - এটি এমন ধরণের সংস্থান যা ডাউনলোড করা হয়েছিল। চার ধরণের সম্পদ রয়েছে।
    • ওয়েব পৃষ্ঠা
    • ভাবমূর্তি
    • বাহ্যিক সংস্থান - কোনও লিঙ্ক ট্যাগ থেকে ডাউনলোড করা কোনও সংস্থান
    • লিপি
  • নতুন ফাইলের নাম - নতুন ফাইলের নাম যা সংস্থান হয়েছে saveঅধীনে d। নোট করুন যে এটি কলামেও ফাইলটির একটি লিঙ্ক রয়েছে যা ডাউনলোড করা সমস্ত সংস্থান পরিদর্শন করা আরও সহজ করে তোলে।

এই ফাইলটি আপনাকে নতুন ফাইলের নামগুলি তাদের পুরানো স্থানে ম্যাপ করতে সহায়তা করার জন্য ডিজাইন করা হয়েছে। এটি প্রয়োজন কারণ একটি URL ফাইল ফাইলের সাথে সরাসরি ম্যাপ করা যায় না কারণ একটি URL ফাইলপথের মধ্যে সরাসরি সংরক্ষণের চেয়ে অনেক বেশি বড় হতে পারে।

এছাড়াও অনেক অনুমতি থাকতে পারে বিশেষত যখন কোনও ওয়েব পৃষ্ঠাগুলি বিভিন্ন ক্যোয়ারী পরিবর্তন করে বিভিন্ন সামগ্রীর প্রতিনিধিত্ব করতে পারে string পরামিতি! সুতরাং পরিবর্তে আমরা ফাইলটি ফোল্ডারে একটি ফ্ল্যাট কাঠামোতে ওয়েবসাইটটি সঞ্চয় করি এবং আপনাকে এই ফাইলগুলি মূল কাঠামোর মানচিত্রের জন্য ডেটা html ফাইল দেই।

অবশ্যই এই কারণে আপনি একটি ডাউনলোড করা HTML পৃষ্ঠা খুলতে পারবেন না এবং ওয়েবে যে ওয়েব পৃষ্ঠাটি দেখেছেন তা প্রত্যাশা করতে পারেন see এটি করার জন্য আপনাকে চিত্র, স্ক্রিপ্ট এবং সিএসএস রিসোর্স ইত্যাদির পাথগুলি আবার লিখতে হবে যাতে এইচটিএমএল ফাইলগুলি আপনার স্থানীয় ফাইল কাঠামোর মধ্যে খুঁজে পেতে পারে।

জিপ ফাইলের মূলের অন্তর্ভুক্ত করা হবে এমন আরেকটি ফাইল যাকে Website.csv বলে। এতে ডেটা html ফাইলের মতো ঠিক একই তথ্য রয়েছে information তবে আপনি যদি ডাউনলোড করা ওয়েবসাইটটি ডাউনলোড এবং প্রক্রিয়াজাত করতে চান তবে এটি ডাউনলোড করা ওয়েবসাইটটি পুনরায় তৈরি করতে ইউআরএল থেকে ফাইলগুলিতে ম্যাপিং ব্যবহার করে এটি অন্তর্ভুক্ত করা হয়েছে।