آرشیو ماهانه - آبان ۱۳۹۷

آشنایی با علم داده

علم داده (Data Science)، دانشی میان‌رشته‌ای پیرامون استخراج دانش و آگاهی از مجموعه‌ای داده و اطلاعات است.

علم داده از ترکیب مباحث مختلفی به وجود آمده و بر مبانی و روش‌های موجود در حوزه‌های مختلف علمی بنا شده‌است.

تعدادی از این حوزه‌ها عبارتند از: ریاضیات، آمار، مهندسی داده، بازشناخت الگو و…

هدف این علم، استخراج مفهوم از داده و تولید محصولات داده‌محور است.

آقایان توماس دونپورت و دی جی پاتیل در سال ۲۰۱۲ در مقاله «علم داده: جذاب‌ترین شغل قرن بیست و یکم» متخصصین علم داده را این‌طور تعریف می‌کنند:

کسانی که می‌دانند چگونه می‌توان از انبوه اطلاعات بدون ساختار پاسخ سوالهای کسب‌وکار را پیدا کرد.

استنتون در سال ۲۰۱۳ علم داده را این‌طور تعریف می‌کند: علم داده رشته در حال ظهوری است که به جمع‌آوری، آماده‌سازی، تحلیل، بصری‌سازی، مدیریت و نگهداشت اطلاعات در حجم بالا می‌پردازد.

دریسکول در سال ۲۰۱۴ علم داده را این‌طور تعریف می‌کند: علم داده مهندسی عمران داده‌هاست.

متخصص علم داده دانشی کاربردی از داده‌ها و ابزارها دارد به علاوه درک تئوریکی دارد که مشخص می‌کند چه چیزی از نظر علمی ممکن است.

عبارت علم داده بیش از یک دهه است که موجودیت دارد.

ویلیام کلیولند اولین کسی است که اصطلاح علم داده را در سال ۲۰۰۱ مطرح کرده‌است. وی در مقاله «علم داده: برنامه‌ای برای گسترش جنبه‌های فنی در رشته آمار» پیشنهاد کرد که علم داده به عنوان یک رشته مستقل شناخته شود.

کلیولند این رشته جدید را مرتبط با علوم کامپیوتر و داده‌کاوی می‌دانست. وی بر این باور بود که منافع استفاده از یک تحلیلگر داده محدود است.

چون مهندسین کامپیوتر شناخت کمی از روشهای کار با داده دارند و دانش محاسباتی متخصصین آمار هم محدود است؛ بنابراین تلفیق این دو گروه می‌تواند منجر به نوآوری‌های زیادی شود.

دپارتمانهای علم داده باید اساتیدی داشته باشد که بتوانند دانش داده‌ها را با دانش محاسبات تلفیق کنند.

با این که عبارت علم داده عبارت جدیدی است، این حرفه سالهاست که وجود داشته‌است.

ناپلئون بناپارت از مدلهای ریاضی برای تصمیم‌گیری در میادین جنگی استفاده می‌کرده‌است. این مدلها را ریاضیدانان تهیه می‌کردند.

اگر شما عبارت “چگونه می توان یک متخصص علم داده شد” را جستجو کنید با نظرات مختلفی روبه رو می شوید. مقالات متعددی وجود دارد که ابزارها، دوره ها و کابردهای متعددی را به افراد پیشنهاد می دهند. در واقع هیچ محدودیتی از این نظر وجود ندارد. اما به طور خلاصه یک متخصص داده فردی است که “دانش آماری قوی تری نسبت به یک مهندس نرم افزار دارد و نیز از دانش مهندسی نرم افزاری قوی تری نسبت به یک فرد آماری برخوردار است”.

یک متخصص علم داده در هر روز ممکن است نیازمند مهارت هایی باشد که می توان به موارد زیر اشاره کرد:

۱-    انجام پژوهش های بدون جواب که به دنبال سوال در صنعت مورد نظر باشد.

۲-    به دست آوردن حجم عظیمی از داده ها از منابع مختلف داخلی و خارجی

۳-    استفاده از برنامه های پیشرفته تجزیه و تحلیل، یادگیری ماشین و روش های آماری برای استفاده در مدل سازی های تجویزی و پیش بینی

۴-    پاک سازی و کنار گذاشتن اطلاعات بی ربط

۵-    کاوش و بررسی داده ها از جوانب مختلف به منظور مشخص کردن فرصت ها و روند های پنهان شده در داده ها

۶-    اتخاذ راه حل های مبتنی بر داده در چالش های پر فشار

۷-    توسعه الگوریتم های جدید به منظور ایجاد ابزاری جدید در تحلیل داده ها

۸-    ایجاد ارتباط موثر بین مدیریت و دپارتمان فناوری اطلاعات از طریق مصور سازی داده ها و گزارش ها

۹-    ارائه تغییرات اقتصادی در روند ها و استراتژی های موجود

به طور کلی دیتا ساینتیست کسی است که :

  1. برنامه نویسی بلد است .
  2. ریاضی و آمار بلد است.
  3. تخصص فنی روی یک رشته دارد .

به عنوان مثال یک مهندس نفت ، دارای علم نفت می باشد و در کنار رشته ی خود به یادگیری زبان برنامه نویسی Python  و یا R پرداخته است  در بحث ریاضی و آمار ، حتی اگر قوی ترین نباشد نیز می تواند از Paper  های موجود در این زمینه استفاده نماید و Paper  مربوط به رشته و زمینه ی خود را ارائه بدهد و در این زمینه پیشرفت چشمگیری در رشته ی خود داشته باشد .

تحقیق و گرد آوری:
سرکار خانم مهندس میری

بیشتر بدانید ...