ওয়েব ক্যাপচার এবং রূপান্তর করার সরঞ্জামসমূহ

পিডিএফ ডকুমেন্টস থেকে ডেটা আহরণ করা হচ্ছে

পিডিএফ ডকুমেন্টের বিষয়বস্তু থেকে ডেটা স্ক্র্যাপিং এইচটিএমএল ডকুমেন্টগুলি থেকে এটি করার মতো নমনীয় নয় তবে এখনও এটি ব্যবহার করে বেশ কয়েকটি উপায় অর্জন করা যেতে পারে গ্র্যাবআইটি'র ওয়েব স্ক্র্যাপার। প্রথমে আপনি যে পিডিএফ সামগ্রীটি ব্যবহার করেন তা স্ক্র্যাপ করে PDF বরং ফাংশন Page ফাংশন তবে অন্যথায় ফাংশনগুলি একইভাবে কাজ করে।

পিডিএফ ডকুমেন্টের জন্য একটি ফিল্টার তার চেয়ে অনেক সহজ একটি HTML ডকুমেন্টের জন্য প্রথমে আপনাকে অবশ্যই উল্লেখ করতে হবে যে আপনি কোন ধরণের সামগ্রী বের করতে চান: লিঙ্ক, চিত্র বা পাঠ্য।

//Extract images
PDF.getValue({"type":"image"});
//Extract links
PDF.getValue({"type":"link"});
//Extract text
PDF.getValue({"type":"text"});

লিঙ্ক এবং চিত্রগুলির জন্য আপনি কোন চিত্র বা লিংক তার অবস্থান নির্দিষ্ট করে তা ফিরিয়ে আনি তা সীমাবদ্ধ করতে পারেন।

PDF.getValue({"type":"image","position":"2"});

একটি নথিতে দ্বিতীয় চিত্র পায়। পাঠ্য, চিত্র এবং লিঙ্কগুলির জন্য আপনি কোনও পৃষ্ঠা নম্বর নির্দিষ্ট করে ফিরিয়ে দেওয়া ডেটা সীমাবদ্ধ করতে পারেন।

PDF.getValue({"type":"image","position":"2","page":"5"});

এটি পঞ্চম পৃষ্ঠা থেকে দ্বিতীয় চিত্র ফিরে আসবে। পাঠ্যটি লাইন নম্বরটির যুক্ত বিকল্পের সাথে আসে তবে পাঠ্য অবস্থানটি সমর্থন করে না।

PDF.getValue({"type":"text","page":"5","line":"10"});

এটি পঞ্চম পৃষ্ঠা থেকে পাঠের দশম লাইন পায়। এই ফিল্টার বিকল্পের ব্যতীত পিডিএফ ডকুমেন্টস থেকে ডেটা স্ক্র্যাপিং এর সাথে খুব অনুরূপভাবে কাজ করে এইচটিএমএল নথি থেকে ডেটা স্ক্র্যাপিংতবে, আপনি যে কোনও পিডিএফ ফিল্টার দিয়ে এক্সট্রাক্ট করতে পারবেন তা সুনির্দিষ্ট করতে পারবেন না কারণ আপনাকে একটি নির্দিষ্ট করতে হবে প্যাটার্ন পাঠ্য থেকে সঠিক তথ্য বের করতে।