পিডিএফ ডকুমেন্টের বিষয়বস্তু থেকে ডেটা স্ক্র্যাপিং এইচটিএমএল ডকুমেন্টগুলি থেকে এটি করার মতো নমনীয় নয় তবে এখনও এটি ব্যবহার করে বেশ কয়েকটি উপায় অর্জন করা যেতে পারে গ্র্যাবআইটি'র ওয়েব স্ক্র্যাপার। প্রথমে আপনি যে পিডিএফ সামগ্রীটি ব্যবহার করেন তা স্ক্র্যাপ করে PDF
বরং ফাংশন Page
ফাংশন তবে অন্যথায় ফাংশনগুলি একইভাবে কাজ করে।
পিডিএফ ডকুমেন্টের জন্য একটি ফিল্টার তার চেয়ে অনেক সহজ একটি HTML ডকুমেন্টের জন্য প্রথমে আপনাকে অবশ্যই উল্লেখ করতে হবে যে আপনি কোন ধরণের সামগ্রী বের করতে চান: লিঙ্ক, চিত্র বা পাঠ্য।
//Extract images PDF.getValue({"type":"image"}); //Extract links PDF.getValue({"type":"link"}); //Extract text PDF.getValue({"type":"text"});
লিঙ্ক এবং চিত্রগুলির জন্য আপনি কোন চিত্র বা লিংক তার অবস্থান নির্দিষ্ট করে তা ফিরিয়ে আনি তা সীমাবদ্ধ করতে পারেন।
PDF.getValue({"type":"image","position":"2"});
একটি নথিতে দ্বিতীয় চিত্র পায়। পাঠ্য, চিত্র এবং লিঙ্কগুলির জন্য আপনি কোনও পৃষ্ঠা নম্বর নির্দিষ্ট করে ফিরিয়ে দেওয়া ডেটা সীমাবদ্ধ করতে পারেন।
PDF.getValue({"type":"image","position":"2","page":"5"});
এটি পঞ্চম পৃষ্ঠা থেকে দ্বিতীয় চিত্র ফিরে আসবে। পাঠ্যটি লাইন নম্বরটির যুক্ত বিকল্পের সাথে আসে তবে পাঠ্য অবস্থানটি সমর্থন করে না।
PDF.getValue({"type":"text","page":"5","line":"10"});
এটি পঞ্চম পৃষ্ঠা থেকে পাঠের দশম লাইন পায়। এই ফিল্টার বিকল্পের ব্যতীত পিডিএফ ডকুমেন্টস থেকে ডেটা স্ক্র্যাপিং এর সাথে খুব অনুরূপভাবে কাজ করে এইচটিএমএল নথি থেকে ডেটা স্ক্র্যাপিংতবে, আপনি যে কোনও পিডিএফ ফিল্টার দিয়ে এক্সট্রাক্ট করতে পারবেন তা সুনির্দিষ্ট করতে পারবেন না কারণ আপনাকে একটি নির্দিষ্ট করতে হবে প্যাটার্ন পাঠ্য থেকে সঠিক তথ্য বের করতে।