تعريف Spidering ويب و Web Crawlers
WEB SCRAPING WITH SCRAPY - FIRST SPIDER
جدول المحتويات:
- المتطفلون مواقع العنكبوت لجمع المعلومات
- نصائح حول حماية موقع الويب الخاص بك من الزواحف روبوت غير المرغوب فيها
- المقالات والمعلومات ذات الصلة
العناكب هي برامج (أو برامج نصية تلقائية) تقوم "بالزحف" عبر الويب بحثًا عن البيانات. تنتقل العناكب عبر عناوين URL لموقع الويب ويمكنها سحب البيانات من صفحات الويب مثل عناوين البريد الإلكتروني. تستخدم العناكب أيضًا في تغذية المعلومات الموجودة على مواقع الويب لمحركات البحث.
العناكب ، والتي يشار إليها أيضًا باسم "برامج زحف الويب" ، تقوم بالبحث في الويب وليست جميعها صديقة في نواياها.
المتطفلون مواقع العنكبوت لجمع المعلومات
جوجل ، ياهو! ومحركات البحث الأخرى ليست الوحيدة التي تهتم بالزحف إلى مواقع الويب - وكذلك المحتالين ومرسلي البريد العشوائي.
يستخدم مرسلو الرسائل غير المرغوب فيها العناكب والأدوات الآلية الأخرى للعثور على عناوين البريد الإلكتروني (يشار إلى هذه الممارسة غالبًا باسم "الحصاد") على مواقع الويب ثم استخدامها لإنشاء قوائم البريد العشوائي.
تعتبر العناكب أيضًا أداة تستخدمها محركات البحث للعثور على مزيد من المعلومات حول موقع الويب الخاص بك ولكن يتم تركها بدون تحديد ، ويمكن لموقع ويب بدون تعليمات (أو "أذونات") حول كيفية الزحف إلى موقعك أن يمثل مخاطر أمنية كبيرة على المعلومات. تنتقل العناكب عن طريق الروابط التالية ، وهي بارعة للغاية في العثور على روابط لقواعد البيانات وملفات البرامج وغيرها من المعلومات التي قد لا ترغب في الوصول إليها.
يمكن لمشرفي المواقع عرض السجلات لمعرفة ما هي العناكب والروبوتات الأخرى التي زارت مواقعهم. تساعد هذه المعلومات مشرفي المواقع في معرفة من يقوم بفهرسة موقعهم وعدد مرات ذلك.
هذه المعلومات مفيدة لأنها تتيح لمشرفي المواقع ضبط إعدادات تحسين محركات البحث وتحسين ملفات robot.txt لمنع بعض برامج الروبوت من الزحف إلى مواقعهم في المستقبل.
نصائح حول حماية موقع الويب الخاص بك من الزواحف روبوت غير المرغوب فيها
هناك طريقة بسيطة إلى حد ما لإبقاء برامج الزحف غير المرغوب فيها خارج موقع الويب الخاص بك. حتى إذا لم تكن قلقًا بشأن العناكب الخبيثة التي تزحف إلى موقعك (لن يؤدي حجب عنوان البريد الإلكتروني إلى حمايتك من معظم برامج الزحف) ، فلا يزال يتعين عليك تزويد محركات البحث بتعليمات مهمة.
يجب أن يكون لجميع مواقع الويب ملف موجود في الدليل الجذر يسمى ملف robots.txt. يسمح لك هذا الملف بتوجيه برامج زحف الويب حيث تريد أن يبحثوا في فهرسة الصفحات (ما لم ينص على خلاف ذلك في بيانات التعريف الخاصة بصفحة معينة لتكون غير مفهرسة) إذا كانوا محرك بحث.
تمامًا كما يمكنك إخبار برامج الزحف المرغوبة بالمكان الذي تريد أن تتصفحه ، يمكنك أيضًا إخبارهم بالمكان الذي قد لا يذهبون إليه بل وحتى حظر برامج زحف معينة من موقعك بالكامل.
من المهم أن تضع في اعتبارك أن ملف robots.txt الموحد جيدًا سيكون له قيمة هائلة لمحركات البحث ويمكن أن يكون عنصرًا رئيسيًا في تحسين أداء موقع الويب الخاص بك ، ولكن بعض برامج زحف الروبوت ستظل تتجاهل تعليماتك. لهذا السبب ، من المهم تحديث جميع البرامج والمكونات الإضافية والتطبيقات في جميع الأوقات.
المقالات والمعلومات ذات الصلة
نظرًا لانتشار جمع المعلومات المستخدمة في أغراض (البريد العشوائي) الشائنة ، تم إصدار تشريع في عام 2003 لجعل بعض الممارسات غير قانونية. تخضع قوانين حماية المستهلك هذه لقانون CAN-SPAM لعام 2003.
من المهم أن تأخذ الوقت الكافي لقراءة قانون CAN-SPAM إذا كان عملك ينخرط في أي بريد جماعي أو جمع معلومات.
يمكنك معرفة المزيد حول قوانين مكافحة البريد العشوائي وكيفية التعامل مع مرسلي البريد العشوائي ، وما قد لا تفعله أنت بصفتك صاحب عمل ، من خلال قراءة المقالات التالية:
- CAN-SPAM Act 2003
- قواعد قانون CAN-SPAM للمنظمات غير الربحية
- 5 قواعد CAN-SPAM يحتاج أصحاب الأعمال الصغيرة إلى فهمها
نموذج رسالة تغطية لمطور ويب Front-End
مثال على خطاب الغلاف لوظيفة مطور ويب أمامي مع استئناف مطابق. بالإضافة إلى ذلك ، رسائل تغطية عينة إضافية وتستأنف للوظائف.
4 مشاريع محفظة مصمم ويب تطمح
جديد في تصميم مواقع الويب ، ولا تعرف ما هي الخبرة التي ستضيفها إلى محفظتك؟ فيما يلي أربعة مشاريع سهلة الإكمال (قد تكون لديك بالفعل).
ملف تعريف سجلات Domino - ملف تعريف سجلات Domino
نمت Domino Records لتصبح واحدة من أكثر العلامات المستقلة تأثيرًا على الإطلاق. تعرف على كيفية حدوث ذلك وكيف يحتفظون بمكانتهم في المقدمة.