ওয়েব ক্যাপচার এবং রূপান্তর করার সরঞ্জামসমূহ

একটি ওয়েবসাইট এবং এর সমস্ত সামগ্রী কীভাবে ডাউনলোড করবেন?

ওয়েবসাইট

কিছু সমাপ্তি রয়েছে যখন সম্পূর্ণ ওয়েবসাইটটি ডাউনলোড করা গুরুত্বপূর্ণ, কেবলমাত্র সমাপ্ত ফলাফল নয়। তবে এইচটিএমএল ওয়েব পৃষ্ঠাগুলি, সিএসএস, স্ক্রিপ্ট এবং চিত্রগুলির মতো সংস্থানগুলি।

এটি হয়ত কারণ আপনি কোডটির ব্যাকআপ চান তবে কোনও কারণে মূল উত্সটিতে আর পাবেন না। অথবা সম্ভবত আপনি কীভাবে সময়ের সাথে একটি ওয়েবসাইটের পরিবর্তন হয়েছে তার বিশদ রেকর্ড চান।

ভাগ্যক্রমে গ্র্যাবজিট এর ওয়েব স্ক্র্যাপার কোনও ওয়েবসাইটের সমস্ত ওয়েব পৃষ্ঠায় ক্রল করে এটি অর্জন করতে পারে। তারপরে প্রতিটি ওয়েব পৃষ্ঠায় স্ক্র্যাপার পৃষ্ঠায় উল্লিখিত যে কোনও সংস্থান সহ HTML টি ডাউনলোড করে।

একটি সম্পূর্ণ ওয়েবসাইট ডাউনলোড করতে স্ক্র্যাপ তৈরি করুন

আপনার ওয়েবসাইট ডাউনলোড করা যতটা সম্ভব সহজ করার জন্য গ্র্যাবজিট একটি স্ক্র্যাপ টেম্পলেট সরবরাহ করে। শুধু এই ক্লিক করুন টেমপ্লেট লিঙ্ক শুরু করতে.

একবার ক্লিক করলে আপনার স্ক্র্যাপ তৈরি হয়ে যাবে। এরপরে, এ যান লক্ষ্য ওয়েবসাইটগুলি ট্যাব এবং ওয়েবসাইট ডাউনলোড করতে URL এর প্রবেশ করান লক্ষ্য URL পাঠ্য বাক্স তারপর ক্লিক করুন লক্ষ্য নির্ধারণ করুন এবং একটি বা দ্বিতীয় জন্য অপেক্ষা করুন।

এড়িয়ে যান স্ক্র্যাপ নির্দেশাবলী এবং রফতানির বিকল্প ট্যাব এবং সরাসরি যান তফসিল স্ক্র্যাপ ট্যাব। তারপরে আপনি ক্লিক করতে পারেন আপডেট স্ক্র্যাপ শুরু করতে। তবে আপনি যদি নিয়মিত সময়সূচীতে চালনার জন্য স্ক্র্যাপ সেট আপ করতে চান তবে উদাহরণস্বরূপ কোনও ওয়েবসাইটের নিয়মিত ব্যাক আপগুলি তৈরি করতে। তারপরে কেবল ক্লিক করুন পুনরায় স্ক্র্যাপ চেকবক্স এবং তারপরে আপনি ঘন ঘন স্ক্র্যাপটি পুনরাবৃত্তি করতে চান তা নির্বাচন করুন।

আপনার ডাউনলোড ওয়েবসাইট ব্যবহার করে

স্ক্র্যাপ শেষ হয়ে গেলে আপনি একটি জিপ ফাইল পাবেন। এরপরে জিপ ফাইলটি বের করে আনুন এবং ফাইলগুলি নামক একটি ডিরেক্টরিতে অবস্থিত এটি ডাউনলোড করা ওয়েব পৃষ্ঠাগুলি এবং ওয়েবসাইট সংস্থানগুলির মধ্যে থাকবে। ডিরেক্টরিটির মূলটিতে ডেটাহিটটিএমএল নামে একটি বিশেষ এইচটিএমএল পৃষ্ঠা থাকবে। ওয়েব ব্রাউজারে এই ফাইলটি খুলুন এবং আপনি তিনটি কলাম সহ একটি HTML টেবিল পাবেন:

  • রিসোর্স ইউআরএল - এটি ওয়েব স্ক্র্যাপার সেই সূত্রটি খুঁজে পেয়েছে। সুতরাং উদাহরণস্বরূপ: http://www.example.com/logo.jog
  • রিসোর্সের ধরণ - এটি এমন ধরণের সংস্থান যা ডাউনলোড করা হয়েছিল। চার ধরণের সম্পদ রয়েছে।
    • ওয়েব পৃষ্ঠা
    • ভাবমূর্তি
    • বাহ্যিক সংস্থান - কোনও লিঙ্ক ট্যাগ থেকে ডাউনলোড করা কোনও সংস্থান
    • লিপি
  • নতুন ফাইলের নাম - নতুন ফাইলের নাম যা সংস্থান হয়েছে saveঅধীনে d। নোট করুন যে এটি কলামেও ফাইলটির একটি লিঙ্ক রয়েছে যা ডাউনলোড করা সমস্ত সংস্থান পরিদর্শন করা আরও সহজ করে তোলে।

এই ফাইলটি আপনাকে নতুন ফাইলের নামগুলি তাদের পুরানো স্থানে ম্যাপ করতে সহায়তা করার জন্য ডিজাইন করা হয়েছে। এটি প্রয়োজন কারণ একটি URL ফাইল ফাইলের সাথে সরাসরি ম্যাপ করা যায় না কারণ একটি URL ফাইলপথের মধ্যে সরাসরি সংরক্ষণের চেয়ে অনেক বেশি বড় হতে পারে।

এছাড়াও অনেক অনুমতি থাকতে পারে বিশেষত যখন কোনও ওয়েব পৃষ্ঠাগুলি বিভিন্ন ক্যোয়ারী পরিবর্তন করে বিভিন্ন সামগ্রীর প্রতিনিধিত্ব করতে পারে string পরামিতি! সুতরাং পরিবর্তে আমরা ফাইলটি ফোল্ডারে একটি ফ্ল্যাট কাঠামোতে ওয়েবসাইটটি সঞ্চয় করি এবং আপনাকে এই ফাইলগুলি মূল কাঠামোর মানচিত্রের জন্য ডেটা html ফাইল দেই।

অবশ্যই এই কারণে আপনি একটি ডাউনলোড করা HTML পৃষ্ঠা খুলতে পারবেন না এবং ওয়েবে যে ওয়েব পৃষ্ঠাটি দেখেছেন তা প্রত্যাশা করতে পারেন see এটি করার জন্য আপনাকে চিত্র, স্ক্রিপ্ট এবং সিএসএস রিসোর্স ইত্যাদির পাথগুলি আবার লিখতে হবে যাতে এইচটিএমএল ফাইলগুলি আপনার স্থানীয় ফাইল কাঠামোর মধ্যে খুঁজে পেতে পারে।

জিপ ফাইলের মূলের অন্তর্ভুক্ত করা হবে এমন আরেকটি ফাইল যাকে Website.csv বলে। এতে ডেটা html ফাইলের মতো ঠিক একই তথ্য রয়েছে information তবে আপনি যদি ডাউনলোড করা ওয়েবসাইটটি ডাউনলোড এবং প্রক্রিয়াজাত করতে চান তবে এটি ডাউনলোড করা ওয়েবসাইটটি পুনরায় তৈরি করতে ইউআরএল থেকে ফাইলগুলিতে ম্যাপিং ব্যবহার করে এটি অন্তর্ভুক্ত করা হয়েছে।