ওয়েব ক্যাপচার এবং রূপান্তর করার সরঞ্জামসমূহ

কাঠামোগত স্ট্রাকচার্ড থেকে স্বয়ংক্রিয়ভাবে স্ট্রাকচার্ড তথ্য এক্সট্রাক্ট করবেন কীভাবে?

সাধারণ লিখিত পাঠ্যে প্রচুর তথ্য অন্তর্ভুক্ত থাকতে পারে যা সহজেই নিষ্কাশনযোগ্য নয়। উদাহরণস্বরূপ একটি বাক্য হয়ত কোনও সংস্থা সম্পর্কে একটি পর্যালোচনা তবে এটি কী ভাল বা খারাপ পর্যালোচনা তা আপনি কীভাবে জানবেন?

একটি সাধারণ ওয়েব স্ক্র্যাপার এই তথ্যটি বের করতে সক্ষম হবে না। তবে গ্র্যাবজিটি এটি প্রাকৃতিক ভাষা প্রক্রিয়াজাতকরণের দক্ষতায় নির্মিত using নীচের উদাহরণে প্রদর্শিত হিসাবে, পৃষ্ঠা পাঠ্যটি বিশ্লেষণ করা হয়েছে এবং নীচের মানগুলির মধ্যে একটি খুব নেতিবাচক, নেতিবাচক, নিরপেক্ষ, ধনাত্মক এবং খুব ইতিবাচক প্রত্যাবর্তন করে।

Data.save(Utility.Text.extractSentiment(Page.getText()), 'Dataset', 'Sentiment');

যদিও গ্র্যাবআইটি'র ওয়েব স্ক্র্যাপার ভাষা সনাক্তকরণ, অবস্থানের নাম, লোকের নাম এবং সংস্থার নাম সহ পাঠ্য থেকে আরও অনেক কিছু বের করতে পারে। যার উদাহরণ নীচে দেখানো হয়েছে।

//Language Detection
Data.save(Utility.Text.extractLanguageName(Page.getText()), 'Dataset', 'Language');
//Identify Geographic Locations
Data.save(Utility.Text.extractLocations(Page.getText()), 'Dataset', 'Locations');
//Identify People's Names
Data.save(Utility.Text.extractNames(Page.getText()), 'Dataset', 'Names');
//Identify Organizations Names
Data.save(Utility.Text.extractOrganizations(Page.getText()), 'Dataset', 'Organizations');

আপনাকে এগুলির কোনও স্ক্র্যাপ নির্দেশাবলী নিজেই লিখতে হবে না, কারণ আপনি যখন আমাদের স্ক্র্যাপ উইজার্ডে কোনও প্রযোজ্য এইচটিএমএল উপাদানটি নির্বাচন করেন তখন সেগুলি স্বয়ংক্রিয়ভাবে উপস্থিত হবে।