مجتمع التحقق العربي هو منظمة بحثية غير ربحية معنية بدراسة الأخبار الزائفة والمعلومات المضللة باللغة العربية على الانترنت، وتقديم الحلول الرائدة والمبتكرة لرصدها

إرشادات ومحاذير استخدام الذكاء الاصطناعي في صحافة البيانات

إرشادات ومحاذير استخدام الذكاء الاصطناعي في صحافة البيانات

كيفية استخدام الذكاء الاصطناعي في تحليل البيانات الكبيرة

 

ينشر هذا المقال التعليمي بالتعاون بين مجتمع التحقق العربي (AFH) و شبكة الصحفيين الدوليين IJNET

 

حقق الذكاء الاصطناعي طفرة في مختلف المجالات، وأصبح توظيفه في صحافة البيانات ضرورة؛ لما له من قدرات على جمع وتحليل وعرض البيانات، خاصة "البيانات الكبيرة".
يستعرض هذا المقال تعريف البيانات الكبيرة، ومصادر الحصول عليها، بالإضافة إلى مراحل معالجتها وتحليلها. كما يناقش الاستخدامات المتنوعة التي توفرها أدوات الذكاء الاصطناعي والتعلم الآلي لتحليل البيانات، وإعداد القصص والتحقيقات والتقارير المدفوعة بالبيانات. كما يتناول المقال التحديات المتعلقة بفعالية هذه الأدوات والمحاذير الأخلاقية المرتبطة بها.

ما هي البيانات الكبيرة؟ وكيف نحللها؟ 

 

  

تُعرَّف البيانات الكبيرة (Big Data) بأنها مجموعات ضخمة ومتنوعة من البيانات التي تتضمن أنواعاً مختلفة، سواءً كانت مهيكلة أو غير مهيكلة أو شبه مهيكلة، ويتم إنتاجها باستمرار وبسرعات عالية وبأحجام هائلة. وعادةً ما يتم قياس حجم هذه البيانات بوحدات مثل التيرابايت أو البيتابايت، حيث يُعادل البيتابايت الواحد مليون جيجابايت.

 

تُعرَّف البيانات الكبيرة (Big Data) بأنها مجموعات ضخمة ومتنوعة من البيانات التي تتضمن أنواعاً مختلفة، سواءً كانت مهيكلة أو غير مهيكلة أو شبه مهيكلة، ويتم إنتاجها باستمرار وبسرعات عالية وبأحجام هائلة. وعادةً ما يتم قياس حجم هذه البيانات بوحدات مثل التيرابايت أو البيتابايت، حيث يُعادل البيتابايت الواحد مليون جيجابايت.

فيما يعرف الذكاء الاصطناعي (AI) بأنه تقنية تمكّن أجهزة الحاسوب والآلات من محاكاة التعلم والفهم وحل المشكلات واتخاذ القرارات كما يفعل البشر. والتعلم الآلي (Machine Learning) هو أحد فروع الذكاء الاصطناعي، الذي يركز على تطوير أنظمة وبرامج تمكن الحواسيب من التعلم من البيانات، وتحسين أدائها بمرور الوقت من دون أن تكون مبرمجة بشكل صريح.

ونظراً إلى أن تحليل البيانات الكبيرة يتطلب أدوات وتقنيات متقدمة، أصبح من الضرورة بمكان الاعتماد على قدرات الذكاء الاصطناعي، خاصة التعلم الآلي، في مختلف مراحل البيانات. 

ما هي مراحل معالجة البيانات الكبيرة؟

1- جمع البيانات

تبدأ تلك المرحلة بجمع البيانات، واكتشافها من مصادرها، واستخراجها لتحويلها وتحميلها.

2- تخزين البيانات

تخزن البيانات سواء على مساحات سحابية  Cloud Storage أو على مساحات تخزين فيزيائية مناسبة.

3- معالجة البيانات

هي عملية تحويل البيانات إلى صيغ مناسبة ومتناسقة للوصول إلى نتائج عند تحليلها.

في المشروع التعاوني أوراق باندورا Pandora Papers الصادر في 2021، الذي قاده "الاتحاد الدولي للصحفيين الاستقصائيين" ICIJ، اُستخدم التعلم الآلي في تصنيف البيانات، واستبعاد البيانات غير المرغوبة، واستخدمت تقنية الـ "clustering" المسؤولة عن تقسيم البيانات وتصنيفها؛ لجعلها قابلة للفهم.

4- تنظيف البيانات وتنقيتها

 

  

تتطلب هذه المرحلة استبعاد البيانات المحتوية على أخطاء أو تكرار أو متناقضة، أو البيانات غير المهمة. وأخيراً، تم توظيف التعلم الآلي ليقوم بهذه المهمة في البيانات الكبيرة، التي يصعب تنقيتها يدوياً.


تتطلب هذه المرحلة استبعاد البيانات المحتوية على أخطاء أو تكرار أو متناقضة، أو البيانات غير المهمة. وأخيراً، تم توظيف التعلم الآلي ليقوم بهذه المهمة في البيانات الكبيرة، التي يصعب تنقيتها يدوياً.

واستخدمت صحيفة لوس أنجلوس تايمز التعلم الآلي في تقريرها المدفوع بالبيانات LAPD underreported serious assaults, skewing crime stats for 8 years؛ للكشف عن تصنيف إدارة شرطة لوس أنجلوس نحو 14 ألف حادث اعتداء خطير على أنها جرائم بسيطة على مدار فترة زمنية تمتد لثماني سنوات؛ ما جعل مستويات الجريمة في المدينة تظهر أقل مما هي عليه في الواقع.

5- تحليل البيانات

تحلل البيانات باستخدام تقنيات الذكاء الاصطناعي، للخروج بخلاصات، وتعرض سواء بشكل وصفي باستخدام أدوات العرض والمخططات والرسوم البيانية.
وتسهم أداة Google BigQuery في تحليل مجموعات كبيرة من البيانات التي تحتوي عليها التقارير الحكومية والبيانات الاجتماعية.
كما تساعد الأداة المتقدمة (Natural Language Toolkit (NLTK  في تحليل البيانات النصية، واستخراج الكلمات الرئيسية، والفهرسة، وتحليل المشاعر، والأرشفة، وتحليل محتوى قواعد بيانات الأخبار.
 

أبرز أدوات الذكاء الاصطناعي المستخدمة في تحليل البيانات الكبيرة:

- أداة Google Cloud AutoML 

تعد هذه الأداة السحابية مناسبة لإنشاء نماذج متخصصة للتعرف على الأنماط في النصوص أو البيانات، كما أنها مثالية للصحفيين الذين يمتلكون خبرة محدودة نسبياً في تحليل البيانات الكبيرة.

- أداة H2O.ai 

تستخدم هذه الأداة في تحليل البيانات الكبيرة، والتنبؤ بالاتجاهات المستقبلية، وهي مفيدة خاصة للصحفيين العاملين في مجالات الاقتصاد والسياسة والانتخابات.

- أداة IBM Watson Studio 

تساعد هذه الأداة الصحفيين على تحليل محتوى منصات التواصل الاجتماعي؛ للتنبؤ باهتمامات الجمهور واتجاهاته، ووضع الإستراتيجيات المناسبة لترويج المحتوى على مواقع التواصل الاجتماعي.

أداة Amazon SageMaker 

هي منصة سحابية مناسبة لتدريب النماذج على أتمتة المهام المتعلقة بتحليل البيانات، خاصة البيانات المستخدمة في التحقيقات.

مكتبة PyOD  

هذه المكتبة مفتوحة المصدر تعتمد على لغة بايثون، ويمكن استخدامها للكشف عن الانحرافات في البيانات، لاسيما في البيانات المالية؛ ما يجعلها أداة فعّالة في التحقيقات الاستقصائية التي تتناول قضايا الفساد وتتبع الأموال.

أداة Isolation Forest  

هي أداة مناسبة للكشف عن الأخطاء أو الأنماط الغريبة في البيانات الصحفية والإعلامية؛ مثل البيانات المتعلقة بالانتخابات.
أداة Tableau 

تستخدم هذه الأداة في عرض البيانات بشكل تفاعلي وإيضاحها، خاصة للجمهور غير المتخصص.

كما تتيح أداة Power BI من Microsoft  إنشاء تقارير تفاعلية قادرة على عرض النتائج بوضوح، وهي تُستخدم في الصحافة الرقمية لعرض نتائج التحقيقات المعقدة.

ورغم القدرات الهائلة لأدوات الذكاء الاصطناعي في التعامل مع البيانات الكبيرة، يواجه الصحفيون ومحللو البيانات بعض التحديات عند استخدامها.

تحديات استخدام الذكاء الاصطناعي في صحافة البيانات الكبيرة

1- ارتفاع التكلفة

تتطلب معالجة البيانات الضخمة أنظمة حوسبة قوية ومتطورة للتعامل مع الكم الهائل من البيانات المتنوعة وغير المصنفة، وتحليلها بسرعة ودقة. وهذه الإمكانات المادية قد تكون غير متوفرة لدى معظم المؤسسات الصحفية المحلية أو المبادرات ذات الموارد المحدودة.

2- تحديات التخزين وسلامة البيانات

تحتاج البيانات الكبيرة إلى تقنيات معقدة في التخزين بشكل آمن والمعالجة، وهو ما يتطلب توفير كوادر فنية مؤهلة للقيام بهذه المهام.

3- تحديات اللغة العربية

تتوفر معظم قواعد البيانات المستخدمة لتدريب النماذج باللغة الإنجليزية، كما أن العديد من الأدوات قد لا تدعم اللغة العربية أو لهجاتها المختلفة، ما يعقد استخدامها في سياق التحقيقات الصحفية في منطقة الشرق الأوسط وشمال أفريقيا التي تعتمد على البيانات باللغة العربية.

4- ثغرات الذكاء الاصطناعي

لا يزال الذكاء الاصطناعي يواجه تحديات في مدى كفاءة جمع البيانات غير المنظمة وتمثيلها، وتحتاج هذه الأدوات إلى المراجعة الدقيقة للخلاصات التي تقدمها.

5- صعوبة الوصول لبيانات حكومية مفتوحة المصدر

لا تزال العديد من الدول النامية في آسيا وأفريقيا تفتقر إلى قواعد بيانات حكومية مفتوحة المصدر تتسم بالشفافية وتستند إلى الأدلة.

وفقاً لاستطلاع أجرته "شبكة صحافيي البيانات العرب" عام 2017، عن "صحافة البيانات" في العالم العربي، والذي شمل 60 صحافياً من ثماني دول عربية، أشار 71.9% من المشاركين إلى صعوبة الحصول على البيانات في بلادهم، فيما وصف 22.8% عملية الحصول على البيانات بأنها معقدة جداً، في حين رأى 5.3% أن الحصول على البيانات أمر سهل.
تأتي هذه التحديات بجانب التحديات الأخلاقية الناجمة عن الذكاء الاصطناعي، وتتفاقم هذا التحديات عند الاعتماد على أدوات الذكاء الاصطناعي في تحليل البيانات الكبيرة، ومن هذه التحديات:

1- انحياز الخوارزميات

يواجه الصحفيون والباحثون مشكلات في انحياز خوارزميات التعلم الآلي التي تقوم بتصنيف وتحليل البيانات واختيارها أو استبعادها بناءً على عوامل مثل اللون، العرق، والنوع الاجتماعي. يعود ذلك إلى ضعف تدريب هذه الخوارزميات على بيانات تمثل الأشخاص الملونين، النساء، أو الأفراد ذوي الهويات الجندرية غير النمطية. علاوة على ذلك، تتأخر معظم دول الجنوب العالمي ومنطقة الشرق الأوسط وشمال أفريقيا في مواكبة أحدث التطورات في هذا المجال

2- هلوسات الذكاء الاصطناعي

تظهر مشكلة "هلوسات" الذكاء الاصطناعي عندما يعجز النموذج عن فهم الأوامر أو الأسئلة، أو عندما لا تتوافق هذه الأوامر مع مجموعات البيانات التي تم تدريبه عليها. يؤدي ذلك إلى قصور في الأداء، أو تجاهل بعض الأوامر والخطوات الأساسية، أو تقديم نتائج خاطئة تؤثر في مصداقية صحافة البيانات، ونتائج التحقيقات.

3- تحديات إتاحة المعلومات واحتكار الشركات الكبرى للبيانات

الكثير من بيانات الكبيرة وأدوات التعلم الآلي، التي تُعتبر سهلة الاستخدام نسبياً، مملوكة لشركات كبرى ومحركات بحث كمصادر مغلقة، ما يجعل من الصعب الوصول إليها أو فهم منهجية جمعها واستخدامها. ويشكل ذلك تحدياً خاصاً بالنسبة للمؤسسات ذات الموارد المالية المحدودة والصحفيين المستقلين.

4- الافتقار للشفافية والتوثيق

تفتقر بعض الخوارزميات إلى توثيق واضح للخطوات والمهام، وإلى الشفافية فيما يتعلق بكيفية التصنيف أو إصدار التوصيات، واتخاذ القرارات.

5- خصوصية البيانات

تعتمد بعض أدوات الذكاء الاصطناعي على بيانات مجهولة المصدر، وقد لا يتم إبلاغ المستخدمين أو الحصول على موافقتهم الصريحة لاستخدام بياناتهم الشخصية؛ مثل: حساباتهم، وآرائهم، واتجاهاتهم، ما يثير مخاوف تتعلق بالخصوصية.

في أوروبا، أُطلقت اللائحة العامة لحماية البيانات (GDPR) عام 2016 لتعزيز حماية حقوق المواطنين وضمان الأمان الرقمي. تشمل اللائحة 99 مادة توضح حقوق الأفراد ومعايير تعامل الشركات مع البيانات الشخصية، بما في ذلك الحق في الإعلام، التصحيح، والمسح، وتُلزم الشركات بإبرام اتفاقيات مكتوبة مع الأطراف الثالثة لمعالجة البيانات.

تكمن المشكلة في أن التشريعات القانونية لحماية الحقوق الرقمية للأفراد في منطقة الشرق الأوسط وشمال أفريقيا لم تتطور بعد بالشكل الكافي. بالإضافة إلى ذلك، لا يقدم مزوّدو أدوات التعلم الآلي تقارير شفافة توضح كيفية جمع البيانات أو معالجتها وتحليلها.
ورغم كل التحديات ومعوقات استخدام الذكاء الاصطناعي، يظل الاستخدام الواعي لأدواته ضرورة لا بد منها، خاصة عندما يتعلق الأمر بتحليل "البيانات الكبيرة" التي يصعب معالجتها يدوياً، والتي يمكن أن يؤدي جمعها وتحليلها إلى الخروج بخلاصات جديدة تصب في الصالح العام.