علم داده (Data Science)، دانشی میان‌رشته‌ای پیرامون استخراج دانش و آگاهی از مجموعه‌ای داده و اطلاعات است.

علم داده از ترکیب مباحث مختلفی به وجود آمده و بر مبانی و روش‌های موجود در حوزه‌های مختلف علمی بنا شده‌است. تعدادی از این حوزه‌ها عبارتند از: ریاضیات، آمار، مهندسی داده، بازشناخت الگو و… هدف این علم، استخراج مفهوم از داده و تولید محصولات داده‌محور است.

عبارت علم داده بیش از یک دهه است که موجودیت دارد. ویلیام کلیولند اولین کسی است که اصطلاح علم داده را در سال ۲۰۰۱ مطرح کرده‌است. وی در مقاله «علم داده: برنامه‌ای برای گسترش جنبه‌های فنی در رشته آمار» پیشنهاد کرد که علم داده به عنوان یک رشته مستقل شناخته شود.

کلیولند این رشته جدید را مرتبط با علوم کامپیوتر و داده‌کاوی می‌دانست.

به شاغلین در حوزهٔ علم داده، متخصص علم داده (data scientist) می‌گویند. این اصطلاح توسط دی جی پاتیل و جف همربارکر ابداع شده‌است

در صورتی که سال‌ها قبل از آن که آن‌ها استفاده از اصطلاح فوق را به‌طور عمومی مطرح کنند، از آن استفاده شده‌است. چن فو جف وو در سال ۱۹۹۸ برای اولین بار در یک سخنرانی از واژهٔ متخصص علم داده استفاده کرد.

متخصصین علم داده می‌توانند مهارت‌هایشان را برای دست یابی به طیف وسیعی از نتایج نهایی به کار گیرند.

تعدادی از این مهارتها به شرح زیرند:

  • توانایی استخراج و تفسیر منابع داده
  • مدیریت حجم زیاد اطلاعات با سخت‌افزار
  • محدودیت‌های نرم‌افزاری و بهنای باند
  • ادغام منابع داده با یک دیگر

با توجه به گستردگی حوزه های کارکردی علوم داده از نرم افزارهای مختلفی در این رشته علمی استافاده می شود. ابزارهای متن باز علم داده عبارتند از :

  • آر (زبان برنامه‌نویسی)
  • پایتون (زبان برنامه‌نویسی)
  • وکا (یادگیری ماشینی)
  • جاوا (زبان برنامه‌نویسی)