فیلوجامعه‌شناسی

”کلان‌داده‌ها“؛ زندگی اجتماعی در اطلاعات غرق می‌شود

فرستادن به ایمیل چاپ

برداشت از iIndustry Watch؛ فقط ایده‌ای برای تأمل بیشتر


▬    چگونه می‌توان از «کلان‌داده‌ها» برای حل معضلات اجتماعی استفاده کرد؟
▬    هر روز ۵/۲ کوانتیلیون (عدد یک با ۱۸ صفر به توان ۲) بایت داده تولید می‌شوند. این داده‌ها از تصاویر، ویدئوها، مطالب اینترنتی منتشره در سایت‌های رسانه‌های اجتماعی، حسگرهای هوشمند، رکورد تراکنش‌های خرید، سیگنال‌های جی. پی. اس تلفن همراه و... ناشی می‌شوند.
▬    اینها «کلان‌داده‌ها» هستند.
▬    بر اساس یک پژوهش انجام شده توسط دفتر کسب و کار تکنولوژی مک کینزی، سود بزرگی هم برای جوامع تحقیقی، و هم برای جوامع تجاری، پیرامون داده‌های بزرگ وجود دارد. پیش‌بینی شده است که «تحلیل «کلان‌داده‌ها» به پایه‌ای کلیدی برای رقابت، موج جدید رشد بهره‌وری، نوآوری و مازاد مصرف‌کننده تبدیل خواهد شد».
▬    اما ظاهراً، افراد بسیار کمی به این‌که چگونه می‌توان از «کلان‌داده‌ها» برای حل معضلات اجتماعی استفاده کرد، توجه دارند. در واقع، اغلب کارهای انجام شده در این جهت نیست. چرا چنین است؟ در محافل پژوهشی بین‌المللی چه کاری می‌توان کرد تا از اثر برخی از برجسته‌ترین ایده‌ها روی موضوع‌های اجتماعی، اطمینان حاصل کرد؟
▬    من از محققان و حرفه‌ای‌های بسیار مشهور برای حضور در پنلی به منظور بحث درباره این موضوع دعوت کرده‌ام. «راجر بارگا»، رهبر گروه اکستریم کامپیوتینگ؛ «لورا هاآس»، مدیر موسسه توده‌های داده؛ «آلان هایوی»، پژوهشگر گوگل و رییس گروه استراکچرد دیتای ایالات متحده امریکا؛ «پُل میلر»، مشاور شرکت کلود دیتای بریتانیا کارشناسان حاضر در این پنل هستند. مشروح این پنل را پیش رو دارید:

░▒▓ سؤال اول: به نظر شما، می‌توان از برخی از پژوهش‌های کنونی و آینده درباره «کلان‌داده‌ها» به منظور دستیابی به سرمایه اجتماعی استفاده کرد؟
▬    آلان: بله، «کلان‌داده‌ها» تنها نشانه اندازه و حجم یکسری داده منفرد نیست، بلکه مجموعه‌ای از داده است که به صورت آنلاین در اختیار ما قرار دارد. (به طور مثال، داده‌های دولتی، نهادهای غیردولتی، دولت‌های محلی و روزنامه نگاران) با در کنار هم قرار دادن این داده‌ها ما می‌توانیم به گفتن روایتی از این داده‌ها کمک کرده و آن‌ها را برای جمعیتی بزرگ‌تر ارزشمند و سودده کنیم. به عنوان نمونه، جایزه اخیر روزنامه نگاری «دنیش» به ارائه روایتی زیبا از داده‌ها اعطا شد. داده‌هایی درباره این که کدام دکترها از سوی صنعت پزشکی حمایت می‌شوند. توانمند کردن مردم برای برقراری ارتباط با این داده‌ها بخشی از دستور کار «کلان‌داده‌ها» است.
▬    لورا: دقیقاً؛ در واقع، بسیاری از تلاش‌هایی که امروزه، به آن‌ها اشتغال داریم، کاملاً در این جهت هستند. بخش عمده‌ای از پژوهش‌های ما درباره «سیاره هوشمندتر» پیرامون استفاده هوشمندانه‌تر مقادیر زیاد داده‌های ناشی از اندازه‌گیری، مشاهده و کسب اطلاعات هم درباره پدیده‌های طبیعی، و هم پدیده‌های دست ساخت بشر روی سیاره زمین است.
▬    پل: نکته اول اهمیت تشخیص پیشرفت‌های تکنولوژیک، تکنولوژی‌های جدید و شیوه‌های جدید کاری است که اغلب هم منافع اجتماعی ملموس، و هم منافع اجتماعی غیرملموس را به عنوان پیامد ناخواسته یا فرعی چیزی دیگر منتقل می‌کند. «رابرت اُون» و همتایانش در اواخر قرن هجدهم و اوایل قرن نوزدهم احتمالاً، دارای انگیزه‌های اصلی برای دستیابی به رفاه اجتماعی و برنامه‌های آموزشی که به کارگران خود ارائه می‌کردند، بودند؛ اما، موفقیت تجاری کارخانه‌های آن‌ها بود که امکان و هزینه اقدامات بشردوستانه را فراهم کرد.
▬    البته، پس از مدتی، کودکان دارای تحصیلات بهتر به کارگران کارآمدتر کارخانه تبدیل شدند. از این‌رو، این کار کاملاً نوع‌دوستانه هم نبود. به روشنی زمینه مناسبی برای رشد و گسترش «کلان‌داده‌ها» در ارائه منافع مستقیم به حوزه‌هایی که به جامعه کمک می‌کنند، وجود دارد.
▬    «سرویس اینترنتی گوگل فلو ترندز» شاید مشهورترین مثال باشد: تحلیل میلیون‌ها جست و جوی اصطلاحات مرتبط با آنفلوانزا (علائم، درمان‌ها و... ) به بنیاد غیرانتفاعی گوگل این توان را می‌دهد تا رویت‌پذیری بیماری را به شیوه‌هایی که می‌توانند یا باید بتوانند به سیستم‌های بهداشت محلی کمک کنند، فراهم کند.
▬    موتور جست و جوی گوگل درباره آنفلوانزا نیست و نشانه‌هایش برای کشف یا پیشگیری از آنفلوانزا نیستند؛ این بخش از ارزش‌های اجتماعی در واقع، از «خروجی داده»های همه کسانی که در سایتی واحد جست و جو می‌کنند، بیرون می‌آید. «روندهای آنفلوانزا» تنها مورد نیست؛ پژوهشگران دانشگاه هاروارد دریافتند که داده‌های توییتر می‌توانند برای پیگیری دامنه شیوع «وبا» در هائیتی به شیوه‌ای مورد تجزیه و تحلیل قرار گیرند که سریع‌تر از تکنیک‌های سنتی هستند.
▬    بر اساس گزارش تحقیقی «متیو اینگرام» «آنچه که پژوهش هاروارد و نقشه سلامت نشان می‌دهد این است که تحلیل داده‌های به دست آمده از مجموعه‌های بزرگ مانند توییت‌های مرتبط با هائیتی نه تنها برای پیگیری الگوها یا بررسی روابط پس از یک رویداد خوب هستند، بلکه می‌توانند در حالی که رویدادها در حال وقوع هستند، مورد استفاده محققان جهان باشند.
▬    راجر: کاملاً، ما تا کنون چندین نمونه مانند این‌ها را دیده‌ایم. نمونه دیگر در علوم همکاری «جیم‌گری و آلکس شاللی» برای ساخت یک رصد خانه مجازی است که تکنولوژی ارتباطی پایگاه داده را ارتقا داد. نمونه تازه‌تر دیگر سیستم ترجمه زبان است که پژوهشگران در «مایکروسافت ریسرچ» با هدف کمک به کارگران نجات یافته از زمین لرزه سال ۲۰۱۰ هائیتی این سیستم را ساختند. ماشینی که در ۴ روز و ۱۷ ساعت و ۳۰ دقیقه ساخته و به منظور کمک به کارگران هائیتی ارائه شد.

░▒▓ سؤال دوم: به نظر شما «کلان‌داده‌ها» در چه حوزه‌هایی می‌توانند بر سرمایه اجتماعی اثر واقعی داشته باشند؟
▬    آلان: «کلان‌داده‌ها»، اطلاعاتی را آشکار می‌کنند که از منظر چشمان مشتاق عامه مردم پنهان می‌شوند. استفاده‌کنندگان اطلاعات و روزنامه نگاران در سراسر جهان باید به سادگی بتوانند مجموعه‌های داده را کشف کنند، آن‌ها را به شیوه‌ای با معنی با هم ادغام کنند و گزارش‌هایی درباره مسائلی که مورد توجه مردم هستند، ارائه دهند. به عنوان مثال، کمک به مردم در شرایط واکنش به بحران، پتانسیلی عظیم برای تولید اطلاعات دارد. مردم پس از زمین لرزه سال ۲۰۱۱ ژاپن و قبل از طوفان نیویورک در یک سال پس از این زمین لرزه، از «جداول جوش هسته‌ای گوگل» به منظور تولید [اطلاعات در قالب] نقشه‌هایی دارای اطلاعات اساسی استفاده کرده‌اند.
▬    لورا: مسأله سلامت نیز از چنین پتانسیلی برخوردار است. از آن‌جا که در حال حاضر مقادیر زیادی از اطلاعات ژنتیکی از طریق ثبت رکوردهای افراد تولید می‌شود، ادبیات علم پزشکی می‌تواند به ما در فراهم آوردن مشهورترین درمان‌ها برای فرد بیمار کمک کند. یا در کشف درمان‌های جدیدی که شاید موثرتر از درمان‌هایی که هم اینک انجام می‌شوند، به ما کمک کند. مثلاً، ما تا کنون روی ارتقای «کلان‌داده‌ها» و پیش‌بینی بهترین رژیم‌های درمانی برای بیماران مبتلا به ایدز کار کرده‌ایم.
▬    ما هم‌چنین، می‌توانیم پدیده‌های دست ساخت بشر را نیز مورد بررسی قرار دهیم، به طور مثال، می‌توانیم الگوهای ترافیکی را درک کرده و در پی آن برای کاهش ترافیک در ساعت‌های پرترافیک برنامه‌ریزی بهتری داشته باشیم. مثال‌های بسیار دیگری نیز می‌توان درباره استفاده از «کلان‌داده‌ها» در بهبود شرایط این سیاره ارائه کرد.
▬    پُل: این فرصت‌ها حتماً باید بزرگ باشند؟ هر موضوع بزرگی روی جامعه اثر می‌گذارد، از تغییر زیست محیطی تا رشد جمعیت، تا نیاز به آب تمیز، غذا و بهداشت؛ همه این‌ها روی گروه‌های بزرگ تأثیر می‌گذارد. حجم، ثبات و تنوع داده‌ها در بسیاری از این حوزه‌ها احتمالاً، فرصت‌های چالش برانگیز پژوهشی ایجاد می‌کند.
▬    راجر: ارتقا بخشی پژوهش‌های علمی همواره به eScience (علوم الکترونیکی) که از ستاره‌شناسی و اقیانوس‌شناسی گرفته تا علوم اجتماعی و اقتصاد را پوشش می‌دهد، ارجاع داده شده است. توان ما در کسب و تحلیل مقادیر زیادی از داده‌های بی‌سابقه و جدید، پتانسیل اثرگذاری ژرف روی علوم را دارد.

░▒▓ سؤال سوم: چالش‌های عمده در این حوزه‌ها چیست؟
▬    آلان: کشف داده‌ها (نحوه یافتن داده‌های باکیفیت از میان مجموعه داده‌هایی که روی وب قرار دارند) یک چالش بزرگ است. تعیین کیفیت داده‌ها و ارتباط آن‌ها با موضوع‌های ویژه و ترکیب چند مجموعه داده توسط افرادی که دانش اندکی درباره تکنیک‌های پایگاه داده دارند، چالشی دائمی است.
▬    لورا: در هر پروژه مرتبط با «کلان‌داده‌ها»، موضوع‌های یکسان متعددی وجود دارند. من سه دسته‌بندی عمده از این موضوع‌ها را در این‌جا ارائه می‌دهم: موضوع‌هایی که به داده‌ها مربوط هستند، موضوع‌هایی که به فرآیند استخراج بینش و کسب منفعت از داده‌ها ارتباط دارند و سرانجام، داده‌هایی که به موضوع‌های مدیریت مانند حریم داده، امنیت و حاکمیت مرتبط هستند.
▬    در فضای اطلاعات، ما درباره چهار نوع داده سخن می‌گوییم. حجم (پرداختن به اندازه و حجم خالص داده‌ها)، تنوع (اداره کردن تعدد انواع داده‌ها و منابع و فرمت‌های آنها)، شتاب (واکنش به سیل اطلاعات در زمان مورد نیاز) و صحت داده‌ها.
▬    چالش‌های مرتبط با استخراج و نتیجه‌گیری از داده‌ها عبارت‌اند از: جمع‌آوری داده‌ها، مرتب کردن داده‌های به دست آمده از منابع مختلف، تبدیل داده‌ها به شکلی مناسب برای تحلیل، مدل‌سازی داده‌ها به صورت ریاضی یا برخی شیوه‌های دیگر مانند شبیه‌سازی و.... و، سپس، دریافت خروجی و محصول.
▬    و امر نظارت نیز یکی دیگر از چالش‌ها است؛ اطمینان از این‌که داده‌ها به‌درستی استفاده می‌شوند، بررسی شیوه‌ای که داده‌ها به کار گرفته می‌شوند، استخراج می‌شوند و... ضوابط پژوهشی در همه این حوزه‌ها وجود دارد.
▬    پُل: دسترس پذیری داده‌ها یکی دیگر از چالش‌ها است؛ این‌که آیا اساساً داده‌ها در دسترس هستند؟ پاسخ مثبت است، اما، پوشش و جامعیت آن‌ها اغلب کامل نیستند. معمولاً، اگر در یک فرآیند خوب، تصمیم‌گیری بر اساس داده‌های بد یا ناقص باشد، تصمیم‌های بد و ناقص حاصل خواهند شد. کیفیت داده نیز چالش دیگری است؛ داده‌ها تا چه حد خوب هستند؟ گستره پوشش داده‌ها تا چه حد وسعت دارد؟
▬    دقت نمونه‌گیری تا چه حد خوب است؟ تفسیرها و خوانش‌ها تا چه حد به‌موقع هستند؟ تا چه حد نمونه‌گیری‌ها دارای سوگیری هستند؟ به طور مثال، مفاهیم نهفته در یک سونامی که چند کشور حاشیه اقیانوس آرام را تحت تأثیر قرار داد، چه هستند؟
▬    اطلاعات شخصی چالشی دیگر است. اطلاعاتی که اغلب درباره افراد است. آیا ما می‌توانیم بدون به خطر انداختن حریم خصوصی افراد، و در عین حال، به منظور کمک به افراد اطلاعات شخصی کافی استخراج کنیم؟
▬    شاید به‌جای پوشاندن سیاست‌های حریم خصوصی، مصرف‌کنندگان، قانون‌گذاران و شرکت‌های نرم‌افزاری باید به برخی از اشکال توافق دست یابند؛ اگر شما اجازه دسترسی به اطلاعات الف، ب، ج مرتبط با خود را بدهید، من از آن‌ها برای اهداف ح، ط وی استفاده خواهم کرد و شما نیز منافع یا خدمات ک، ل و ن را به دست خواهید آورد. دو بخش نخست به طور فزاینده‌ای بجا و مناسب هستند، البته، به طور غیررسمی.
▬    راجر: نخستین گام مهم پذیرش دیدگاه داده محور است. هدف صرفاً ذخیره داده برای جامعه‌ای خاص نیست، بلکه بهبود کیفیت داده و ارائه آن به عنوان خدمتی دقیق و صحیح و مطابقت داده‌ها با سیستم‌های عملیاتی است. در واقع، موضوع برقراری رابطه عمودی بین منابع بسیار متفاوت داده‌ای نیست، بلکه عملکردی کیفی است که باید به کار برده شود و تطبیق دادن همه داده‌ها با هم است. پژوهشگران در واقع، به داده نیازی ندارند، بلکه آن‌ها برای پشتیبانی از اثر خود به پایگاه‌های اطلاعاتی مبتنی بر این داده‌ها نیاز دارند.

░▒▓ سؤال چهارم: چه مشکلات و موانعی جامعه ما را از کار کردن روی پروژه‌های سرمایه اجتماعی باز می‌دارد؟
▬    آلان: از چشم‌انداز فنی تصور نمی‌کنم موانع خاصی وجود داشته باشند. شاید مهم‌ترین مانع ایده‌هایی مرتبط با به‌کارگیری این تکنولوژی و اثر اجتماعی گذاشتن است. معمولاً، این ایده‌ها برآمده از جامعه فنی نیست، از این رو، ما نیازمند اظهارنظرهای شاغلان در این حوزه هستیم.
▬    لورا: تأمین بودجه و قابلیت دسترسی داده‌ها دو موضوع حائز اهمیت در این‌جا هستند. بیشتر سرمایه‌گذاری‌ها روی پروژه‌های سرمایه اجتماعی از سوی دولت‌ها صورت می‌گیرد و ما می‌دانیم که این سرمایه‌گذاری‌ها بخش کوچکی از بودجه کل است. افزون بر این، بازار ابزارهای جدید و مواردی از این دست که ممکن است در این فضاها ایجاد شوند نسبتاً محدود هستند، از این رو، این بخش همیشه برای شرکت‌های خصوصی جذاب نیست تا روی آن سرمایه‌گذاری کنند. در حالی که امروزه، بسیاری از داده‌ها به طور عمومی در دسترس هستند، اما، اغلب قطعه‌های کلیدی مفقود هستند یا به طور شخصی نگه داری می‌شوند یا نمی‌توان به صورت قانونی به آن‌ها دست یافت مانند حریم خصوصی افراد یا منافع ملی یک کشور.
▬    راجر: شاید بزرگ‌ترین مانع، مانعی اجتماعی باشد. چنین پروژه‌هایی نیازمند آگاهی جامعه به منظور واداشتن افراد به کنش است و اغلب یک قهرمان این چالش‌های فنی را به شیوه‌ای که برای جامعه دست‌یافتنی است، مطرح می‌کند. این پروژه‌ها احتمالاً، به همکاری نزدیک میان جامعه فنی و کسانی که به این مشکل آشنایی دارند، نیاز خواهد داشت.

░▒▓ سؤال پنجم: به منظور پشتیبانی از ابتکار عمل‌ها برای داده‌های بزرگ پایدار چه کاری می‌توانیم بکنیم؟
▬    آلان: ساخت مجموعه‌ای از داده‌های بسیار با کیفیت که به طور گسترده در دسترس هستند، می‌تواند به عنوان ستون فقرات برای بسیاری از پروژه‌های ویژه داده خدمت کند. به طور مثال، مجموعه‌های داده‌ای که مرزهای کشور/شهرستان و سایر مناطق حکومتی را در برمی گیرد.
▬    لورا: به طور روز افزونی، ما شاهد اتحاد کنسرسیوم‌های مؤسسات به منظور انجام کار مشترک روی برخی از این مسائل هستیم. این مراکز احتمالاً، داده و پایگاه‌های اطلاعاتی برای کارهای مبتنی بر داده‌های زیاد و فشرده فراهم می‌آورند، و برخی از چالش‌هایی که پیش از این ذکر شد، را با کسب و مدیریت داده کاهش می‌دهند، ابزارها و محیط لازم را ایجاد می‌کنند، ابزارهایی را برای حاکمیت فراهم می‌کنند و... گروه من در حال ایجاد چنین پایگاه‌هایی با هدف تسهیل این همکاری‌های مشترک است.
▬    پُل: بسیاری از حوزه‌ها به پژوهشگران یا شرکت‌های دارای مهارت/ تولید نیازمند هستند. فعالیت‌هایی مانند «بیگ دیدتا ویک هکتونز» [برنامه یک هفته‌ای که طی آن برنامه نویس‌های کامپیوتری برای حل برخی مشکلات اجتماعی دور هم جمع شده و به همفکری پرداختند] می‌تواند راهی برای تشویق سازمان دهنده‌ها به منظور برگزاری «هکتون»‌های دیگر و رقابت‌هایی که به طور مشخص روی یک مشکل اجتماعی هدف‌گذاری می‌شود. به ترغیب انتشار «اُپن دیتا» از مجموعه داده‌های کلیدی عمومی ادامه دهید. با آژانس‌هایی که در این حوزه‌ها کار می‌کنند و مشکلات را درک می‌کنند، گفت و گو کنید. شیوه‌های را برای کمک به آن‌ها بیابید و آن‌ها را در کاری که می‌خواهند انجام دهند یاری دهید و در این راه اعتماد و تفاهم ایجاد کنید.
▬    راجر: ابزارها و منابعی را به منظور ادامه پژوهش فراهم کنید. امروزه، تنها بخشی از دانشمندان و مهندسان از دسترسی عادی به منابع دارای کارآیی بالا و محاسبه فشرده داده به منظور پردازش و تحلیل مقادیر بسیار زیاد داده‌ها و اجرای مدل‌ها و شبیه سازی‌ها بهره می‌برند. واقعیت برای اغلب جوامع علمی این است که سرعت کشف کردن اغلب مانع می‌شود، هنگامی که آن‌ها باید برای دسترسی به منابع محدود در نوبت قرار گیرند یا هنگامی که آن‌ها مجبورند چشم انداز پژوهش را در تطابق با قدرت پردازشگر بتدریج کاهش دهند.
▬    این مشکل بویژه در موسسه‌های پژوهشی کوچک‌تر حاد است. موسسه‌هایی که دنباله‌های جامعه پژوهشی را نمایندگی می‌کنند. دانشگاه‌های درجه یک و برخی دانشگاه‌های درجه دو زیرساخت‌های لازم و بودجه کافی برای تأمین و پشتیبانی منابع محاسبه را دارند، در حالی که موسسه‌های پژوهشی کوچک‌تر در حال کشمکش بر سر این موضوع هستند. شرکت‌ها و آژانس‌های سرمایه‌گذاری ما باید منابع را به منظور حمایت از پژوهشگران بویژه کسانی که به منابع کافی دسترسی ندارند فراهم کند.

░▒▓ سؤال ششم: آیا از وجود پروژه‌ها یا ابتکارهایی برای «کلان‌داده‌ها» پایدار خبر دارید؟
▬    لورا: بله. زیاد! مرکز پژوهش آی. بی.‌ام به تنهایی در هر یک از حوزه‌هایی که پیش از این، گفته شد و در حوزه‌های متعدد دیگر تلاش‌هایی کرده است. به طور مثال، ما روی مدل‌سازی سیل در شهر «ریو» در برزیل؛ کار کرده‌ایم. مانیتور نوزادان نارس در بخش نوزادان بیمارستان تورنتو نیز از جمله یکی از کارهای ما است که امکان تشخیص عفونت‌های تهدیدکننده زندگی را تا ۲۴ ساعت زودتر را می‌دهد.
برداشت آزاد از دنیای اقتصاد
هو العلیم

نوشتن نظر
Your Contact Details:
نظر:
<strong> <em> <span style="text-decoration:underline;"> <a target=' /> [quote] [code] <img />   
Security
کد آنتی اسپم نمایش داده شده در عکس را وارد کنید.