ওয়েব ক্যাপচার এবং রূপান্তর করার সরঞ্জামসমূহ

একটি ওয়েবসাইট এবং এর সমস্ত সামগ্রী কীভাবে ডাউনলোড করবেন?

ওয়েবসাইট

কিছু সমাপ্তি রয়েছে যখন সম্পূর্ণ ওয়েবসাইটটি ডাউনলোড করা গুরুত্বপূর্ণ, কেবলমাত্র সমাপ্ত ফলাফল নয়। তবে এইচটিএমএল ওয়েব পৃষ্ঠাগুলি, সিএসএস, স্ক্রিপ্ট এবং চিত্রগুলির মতো সংস্থানগুলি।

এটি হয়ত কারণ আপনি কোডটির ব্যাকআপ চান তবে কোনও কারণে মূল উত্সটিতে আর পাবেন না। অথবা সম্ভবত আপনি কীভাবে সময়ের সাথে একটি ওয়েবসাইটের পরিবর্তন হয়েছে তার বিশদ রেকর্ড চান।

ভাগ্যক্রমে গ্র্যাবজিট এর ওয়েব স্ক্র্যাপার কোনও ওয়েবসাইটের সমস্ত ওয়েব পৃষ্ঠায় ক্রল করে এটি অর্জন করতে পারে। তারপরে প্রতিটি ওয়েব পৃষ্ঠায় স্ক্র্যাপার পৃষ্ঠায় উল্লিখিত যে কোনও সংস্থান সহ HTML টি ডাউনলোড করে।

একটি সম্পূর্ণ ওয়েবসাইট ডাউনলোড করতে স্ক্র্যাপ তৈরি করুন

আপনার ওয়েবসাইট ডাউনলোড করা যতটা সম্ভব সহজ করার জন্য গ্র্যাবজিট একটি স্ক্র্যাপ টেম্পলেট সরবরাহ করে।

শুরু করতে এই টেম্পলেট লোড করুন.

Then enter your লক্ষ্য URL, this URL is then automatically checked for errors and any required changes made. Keep the Automatically Start Scrape checkbox ticked, and your scrape will automatically start.

Customizing your Scrape

If you want to alter the template, uncheck the Automatically Start Scrape checkbox. One alteration would be to run the scrape on a regular schedule, for instance, to create regular copies of a website. On the তফসিল স্ক্র্যাপ tab, simply click the পুনরায় স্ক্র্যাপ checkbox and then select how frequently you want the scrape to repeat. Then click আপডেট to start the scrape.

আপনার ডাউনলোড ওয়েবসাইট ব্যবহার করে

স্ক্র্যাপ শেষ হয়ে গেলে আপনি একটি জিপ ফাইল পাবেন। এরপরে জিপ ফাইলটি বের করে আনুন এবং ফাইলগুলি নামক একটি ডিরেক্টরিতে অবস্থিত এটি ডাউনলোড করা ওয়েব পৃষ্ঠাগুলি এবং ওয়েবসাইট সংস্থানগুলির মধ্যে থাকবে। ডিরেক্টরিটির মূলটিতে ডেটাহিটটিএমএল নামে একটি বিশেষ এইচটিএমএল পৃষ্ঠা থাকবে। ওয়েব ব্রাউজারে এই ফাইলটি খুলুন এবং আপনি তিনটি কলাম সহ একটি HTML টেবিল পাবেন:

  • রিসোর্স ইউআরএল - এটি ওয়েব স্ক্র্যাপার সেই সূত্রটি খুঁজে পেয়েছে। সুতরাং উদাহরণস্বরূপ: http://www.example.com/logo.jog
  • রিসোর্সের ধরণ - এটি এমন ধরণের সংস্থান যা ডাউনলোড করা হয়েছিল। চার ধরণের সম্পদ রয়েছে।
    • ওয়েব পৃষ্ঠা
    • ভাবমূর্তি
    • বাহ্যিক সংস্থান - কোনও লিঙ্ক ট্যাগ থেকে ডাউনলোড করা কোনও সংস্থান
    • লিপি
  • নতুন ফাইলের নাম - নতুন ফাইলের নাম যা সংস্থান হয়েছে saveঅধীনে d। নোট করুন যে এটি কলামেও ফাইলটির একটি লিঙ্ক রয়েছে যা ডাউনলোড করা সমস্ত সংস্থান পরিদর্শন করা আরও সহজ করে তোলে।

এই ফাইলটি আপনাকে নতুন ফাইলের নামগুলি তাদের পুরানো স্থানে ম্যাপ করতে সহায়তা করার জন্য ডিজাইন করা হয়েছে। এটি প্রয়োজন কারণ একটি URL ফাইল ফাইলের সাথে সরাসরি ম্যাপ করা যায় না কারণ একটি URL ফাইলপথের মধ্যে সরাসরি সংরক্ষণের চেয়ে অনেক বেশি বড় হতে পারে।

এছাড়াও অনেক অনুমতি থাকতে পারে বিশেষত যখন কোনও ওয়েব পৃষ্ঠাগুলি বিভিন্ন ক্যোয়ারী পরিবর্তন করে বিভিন্ন সামগ্রীর প্রতিনিধিত্ব করতে পারে string পরামিতি! সুতরাং পরিবর্তে আমরা ফাইলটি ফোল্ডারে একটি ফ্ল্যাট কাঠামোতে ওয়েবসাইটটি সঞ্চয় করি এবং আপনাকে এই ফাইলগুলি মূল কাঠামোর মানচিত্রের জন্য ডেটা html ফাইল দেই।

অবশ্যই এই কারণে আপনি একটি ডাউনলোড করা HTML পৃষ্ঠা খুলতে পারবেন না এবং ওয়েবে যে ওয়েব পৃষ্ঠাটি দেখেছেন তা প্রত্যাশা করতে পারেন see এটি করার জন্য আপনাকে চিত্র, স্ক্রিপ্ট এবং সিএসএস রিসোর্স ইত্যাদির পাথগুলি আবার লিখতে হবে যাতে এইচটিএমএল ফাইলগুলি আপনার স্থানীয় ফাইল কাঠামোর মধ্যে খুঁজে পেতে পারে।

জিপ ফাইলের মূলের অন্তর্ভুক্ত করা হবে এমন আরেকটি ফাইল যাকে Website.csv বলে। এতে ডেটা html ফাইলের মতো ঠিক একই তথ্য রয়েছে information তবে আপনি যদি ডাউনলোড করা ওয়েবসাইটটি ডাউনলোড এবং প্রক্রিয়াজাত করতে চান তবে এটি ডাউনলোড করা ওয়েবসাইটটি পুনরায় তৈরি করতে ইউআরএল থেকে ফাইলগুলিতে ম্যাপিং ব্যবহার করে এটি অন্তর্ভুক্ত করা হয়েছে।