أفكار وآراء

نهاية النظرية: طوفان البيانات يُبلي المنهج العلمي

كريس آندرسون

ترجمة : نوف السعيدية

رغم مرور أكثر من عقد على نشر هذا المقال الجدلي أدناه، إلا أن قيمته تعود لكونه «استفز» العلماء وفلاسفة العلم سواء لإنتاج جسد من المعرفة يُناقش ابستمولوجيا هذا المنهج المستجد.

يُشار اليوم لهذا بالمنهج بالعلم الموجه بالبيانات Data-driven Science كمقابل للعلم الموجه بالنظرية. Hypothesis-driven والجدل لا يزال قائما - بل ويشتد مع تقدم تقنيات الذكاء الاصطناعي - حول ما إذا كان هذا المنهج فعلًا له سمات مستقلة تؤهله ليكون طريقة ثالثة لاكتساب المعرفة. على اعتبار أن الطريقة الأولى هي الملاحظة والتجريب (وما يتبعهما من استدلال استقرائي)، والثانية المحاكاة (محاكاة الحواسيب للعمليات أو الظواهر الطبيعية)...

المترجمة

***

«جميع النماذج خاطئة، لكن بعضها مفيد» هذا ما صرح به الإحصائي جورج بوكس قبل 30 عامًا، وكان مصيبا في ذلك، لكن هل كان لدينا خيار آخر عدا الاعتماد عليها؟ إذ بدا لنا أن النماذج وحدها - من المعادلات الكونية إلى نظريات السلوك البشري- قادرة على تفسير العالم من حولنا، وإن لم يكن على نحو مثالي. أما اليوم، وفي ظل وفرة البيانات، لم تعد الشركات -من مثيلات جوجل- مجبرة على القبول بنماذج خاطئة. في الواقع، إنها ليست مجبرة على قبول أي نماذج على الإطلاق.

قبل 60 عاما، جعلت الحواسيب المعلومات قابلة للقراءة. قبل 20 عاما، جعلها الإنترنت في المتناول. قبل 10 أعوام رتبتها محركات البحث في قاعدة بيانات مشتركة. وها هي جوجل -ومثيلاتها من الشركات اليوم- تُغربل بيانات هذا العصر الذي نجح في أن يسجل ويقيس أكثر من عداه عبر التاريخ. ها هي تُعامل هذا الجسد الضخم من المعلومات على أنه مختبر للحالة البشرية. البيانات هي بنات عصر البيتابايت.

يختلف عصر البيتابايت، لأن الوفرة تفرق. أمكن تخزين بيانات بحجم بضعة كيلوبايتات في قرص فلوبي. أمكن تخزين الميجابايت منها في قرص صلب، والتييرابايت منها في مصفوفة من الأقراص، والبيتابايتات تُخزن سحابيًا. مع تقدمنا تتحول الاستعارة التي نصف بها طرق التخزين من ملف إلى كابينة، إلى مكتبة، إلى.. ثم تنفد منا الاستعارات التنظيمية بحلول البيتابايت.

لا يعود بالإمكان تصنيف وترتيب المعلومات -عندما تصل لمستوى البيتابايت- ببساطة في أبعاد ثلاثية ورباعية، بل في قوالب إحصائية غير محددة الأبعاد. فوق ذلك، يتطلب التعامل معها استدعاء نهج مختلف بالكامل، نهج يُطالبنا بالتخلي عن اعتبار أن البيانات في كليتها شيء يمكن تصويره.

نهج يُجبرنا على عرض البيانات رياضيًا أولًا، ولاحقًا وضعها في سياق ما. غزت جوجل -مثلًا- عالم الإعلانات بتوظيفها الرياضيات التطبيقية وحدها. لم تدع معرفة أفضل بثقافة الإعلان وتقاليده، كل ما هنالك أنها افترضت أن بيانات أفضل، وأدوات تحليلية أفضل، هي ما يربح في النهاية. وكانت جوجل على حق.

فلسفة جوجل تتلخص في الآتي: نحن لا نعرف لما تُعد هذه الصفحة أفضل من تلك، لكن إن كانت إحصائيات الروابط الواردة تقول كذلك، فهذا جيد بما فيه الكفاية. التحليل الدلالي أو السببي غير ضروريين هنا بالمرة. لهذا السبب يمكن لجوجل الترجمة عن وإلى لغاتٍ دون «معرفتها» فعليًا (إذا ما افترضنا توفر حجم مماثل من البيانات، فبإمكان جوجل الترجمة من اللغة الكلينغونية -لغة خيالية من عالم ستار تريك- إلى الفارسية بالسهولة التي تترجم بها الفرنسية إلى الألمانية). هذا بالضبط يشرح لماذا يمكن لجوجل أن تُطابق الإعلانات مع المحتوى دون أي معرفة أو افتراضات حول الإعلانات أو المحتوى.

في حديثه بمؤتمر أوريلي للتقنيات المستجدة مارس الماضي، قدم بيتر نورفيج -مدير الأبحاث في جوجل- تحديثًا لمبدأ جورج بوكس: «جميع النماذج خاطئة، ويمكن -على نحو متزايد- النجاح دونها».

إنه عاَلمٌ يحل فيه زخم البيانات والرياضيات التطبيقية محل أي أداة أخرى يمكن استخدامها. دعك من نظريات السلوك البشري، من اللسانيات إلى علم الاجتماع. دعك من التصنيف، والأنطولوجيا، وعلم النفس. من منا يعرف لماذا يفعل الناس ما يفعلونه؟ المهم أنهم يفعلون ما يفعلونه، وبالإمكان تتبع أفعالهم وقياسها -أيا تكن- بدقة غير مسبوقة. إذا ما وُجد ما يكفي من البيانات، فالأرقام ستتحدث.

الغاية الكبرى -مع ذلك- لا تقتصر على الإعلان. العلم هو الغاية. بُني العلم حول الفرضيات القابلة للفحص. والنماذج ما هي إلا تمثيل للأنظمة كما يراها العلماء. يضعونها، ثم يختبرونها، وعبر التجربة تؤَكد النماذج النظرية -حول الكيفية التي يعمل بها العالم- أو تُدحض. هذه هي الطريقة التي مُورِس بها العلم لمئات السنين الآن.

يتم تدريب العلماء على إدراك أن العلاقات الارتباطية ليست بالضرورة علاقات سببية، وأنه لا ينبغي استخلاص نتائج مبنية ببساطة على ارتباط «س» بـ«ص» (فالتعالق قد يكون مجرد مصادفة في نهاية الأمر). عوضًا عن ذلك، يجب عليهم فهم الآليات الكامنة وراء ارتباط المتغيرين. وبمجرد أن يُطور النموذج، يمكن ربط مجموعات البيانات بثقة. إذ أن البيانات دون نموذج، مجرد ضوضاء.

لكن زخم البيانات يجعل هذا النهج في ممارسة العلم -وضع الفرضية، وتطوير النموذج، اختباره- باليا. لنأخذ الفيزياء على سبيل المثال: قارب النموذج النيوتوني الحقيقة (رغم أن النموذج معيب على المستوى الذري، لكنه مفيد عمليا على مستويات أعلى). قبل 100 عام، قدمت ميكانيكا الكم -القائمة على الإحصاء- تمثيلًا أفضل. لكن ميكانيكا الكم ما هي إلا نموذج آخر، وبالتالي فهي أيضًا معيبة، ولا شك في أن كل ما تقدمه لا يعدو كونه صورة كاريكاتورية لواقع كامنٍ أكثر تعقيدًا. السبب وراء انجراف الفيزياء إلى التكهنات النظرية حول النماذج الموحدة الكبرى ذات البعد «ن» على مدار العقود القليلة الماضية (مرحلة حبك «قصة جميلة» في نظام متعطش للبيانات) هو أننا لا نعرف كيف نجري التجارب التي من شأنها أن تدحض الفرضيات. لأنها تتطلب طاقات عالية، ومسرعات باهظة الثمن، وما إلى ذلك.

وها هو علم الأحياء يتبع أثر الفيزياء. لقد تبين أن النماذج التي تعلمناها في المدرسة حول الجينات «السائدة» و«المتنحية» التي توجه العملية المندلية، هو تبسيط للواقع يتجاوز تبسيط قوانين نيوتن حتى. يتحدى اكتشاف التفاعلات بين البروتينات والجينات والجوانب الأخرى لعلم التخلق -وجهة النظر الحتمية للحمض النووي، بل وقدم دليلًا على أن البيئة يمكن أن تؤثر على السمات الوراثية، وهو أمر كان يُعد يومًا ما خرقا لقوانين الوراثة.

خلاصة الأمر، أننا كلما تعلمنا عن الأحياء، كلما وجدنا أنفسنا أبعد عن النماذج التي تشرح العمليات الأحيائية.

أصبحت لدينا الآن طريقة أفضل. يسمح لنا عصر البيتابايت أن نكتفي بالعلاقات الارتباطية. يمكننا التوقف عن البحث عن النماذج. يمكننا تحليل البيانات بدون فرضيات. يمكننا رمي الأرقام في أكبر نظام حوسبة شهده العالم، والسماح للخوارزميات الإحصائية بالعثور على أنماط لا يستطيع العلم إيجادها.

أفضل مثال عملي على ذلك هو الترتيب التسلسلي الجيني المتتالي الذي عمل عليه كريغ فينتر. انتقل فينتر - بفضل أجهزة الترتيب التسلسلي عالية السرعة والحواسيب الفائقة التي تحلل إحصائيًا البيانات التي تنتجها- من سَلسلة الكائنات الحية فُرادى إلى سَلسلة نظم بيئية بأكملها. بدأ -في عام 2003- سلسلة جزء كبير من المحيط، متتبعًا رحلة الكابتن كوك. وفي عام 2005 بدأ سَلسلة الهواء. اكتشف -خلال العملية- الآلاف من أنواع البكتيريا وأشكال الحياة الأخرى غير المعروفة سابقًا.

إذا كانت عبارة «اكتشاف نوع جديد» تستدعي إلى ذهنك داروين ورسومات العصافير، فقد تكون عالقًا في الطريقة القديمة لممارسة العلوم. لا يستطيع فينتر إخبارك أي شيء تقريبًا عن الأنواع التي وجدها. إنه لا يعرف كيف تبدو أو كيف تعيش أو أي شيء آخر يتعلق بتشكلها (مورفولوجيتها). ليس لديه حتى الجينوم الكامل. كل ما لديه هو ومضة إحصائية: تسلسل فريد من نوعه، لا يُطابق أي تسلسل آخر في قاعدة البيانات، وهذه إشارة كافية لاعتباره نوعًا جديدًا.

قد يرتبط هذا التسلسل بتسلسلات أخرى قريبة من الأنواع التي نعرف المزيد عنها. في هذه الحالة، يمكن لفينتر إجراء بعض التخمينات حول الحيوانات -أنها مثلا تحول ضوء الشمس إلى طاقة بطريقة معينة، أو أنها تنحدر من سلف مشترك. لكن عدا ذلك، فهو لا يملك نموذجًا أفضل من النموذج الذي تملكه جوجل عن صفحتك على ماي سبيس. إنها مجرد بيانات. ورغم ذلك، فمن خلال تحليلها باستخدام موارد حوسبة بجودة تلك التي تمتلكها جوجل، فإن فينتر قد طور علم الأحياء أكثر من أي من معاصريه.

نمط التفكير هذا مهيأ لأن يُصبح سائدًا. في فبراير، أعلنت مؤسسة العلوم الوطنية عن برنامج كلوإي (Cluster Exploratory)، وهو برنامج يمول الأبحاث المصممة للعمل على منصة حوسبة موزعة على نطاق واسع طورتها جوجل وآي بي أم بالاشتراك مع 6 جامعات تجريبية. ستتألف المجموعة من 1600 معالج، وعدة تيرابايت من الذاكرة، ومئات تيرابايت من التخزين، جنبًا إلى جنب مع البرنامج، بما في ذلك تيفولي من آي بي أم، وإصدارات مفتوحة المصدر من نظام ملفات جوجل ونموذج الهيكلة والتجميع (MapReduce). ستتضمن مشروعات كلوإي المبكرة محاكاة للدماغ والجهاز العصبي وأبحاث بيولوجية أخرى تقع في مكان ما بين البرمجيات الرطبة wetware والبرمجيات الحاسوبية.

قد يكون تعلم استخدام «كمبيوتر» بهذا الحجم أمرًا صعبًا. لكن الفرصة عظيمة: تُقدم الوفرة الحديثة للبيانات، بجانب الأدوات الإحصائية لمعالجة هذه الأرقام - طريقة جديدة تمامًا لفهم العالم. تحل فيها العلاقات الارتباطية محل العلاقات السببية، ويمكن للعلم وفقها أن يتقدم دون نماذج متماسكة، أو نظريات موحدة، أو أي تفسير ميكانيكي على الإطلاق.

لا يوجد سبب للتشبث بأساليبنا القديمة. حان الوقت لنسأل: ما الذي يمكن أن تتعلمه المؤسسة العلمية من جوجل؟

_____________

مقال لـ Chris Anderson نُشر في الأصل بتاريخ 23.06.2008 على مجلة Wired تحت عنوان «The End of Theory: The Data Deluge Makes the Scientific Method Obsolete»