یادگیری ماشین

تحلیل داده چیست؟ مقدمه‌ای بر تجزیه‌وتحلیل داده‌ها

همانطور که کسب‌وکارهای مختلف در سراسر جهان به جمع‌آوری، ردیابی و ذخیره داده‌ها ادامه می‌دهند، مفهوم تجزیه‌وتحلیل داده هم اهمیت فزاینده‌ای پیدا می‌کند. تحلیل داده‌ها یک مفهوم گسترده است که انواع مختلفی از آنالیز داده‌ها را شامل می‌شود. واقعیت این است که هر نوع اطلاعاتی را می‌توان در معرض تکنیک‌های تجزیه‌وتحلیل داده‌ها قرار داد و از آن‌ها بینشی به‌دست آورد که می‌تواند برای بهبود موارد مختلف استفاده شود. تحلیل داده‌ها به شرکت‌ها کمک می‌کند تا دید وسیع‌تر و درک عمیق‌تری از فرآیندها و خدمات خود پیدا کنند. این کار به آن‌ها بینش دقیقی از تجربه مشتری و نیازهای او می‌دهد و شرکت‌ها می‌توانند تجارب مشتری شخصی‌سازی‌شده ایجاد کنند، محصولات دیجیتال مرتبط بسازند، عملیات مربوط به پشتیبانی و خدمات‌دهی خود را بهینه کنند و بهره‌وری کارکنان‌شان را بالا ببرند. اما تحلیل داده‌ دقیقا چیست و چگونه انجام می‌شود و چرا می‌تواند تا این اندازه روی موفقیت کسب‌وکارهای امروزی تاثیر بگذارد؟ 

منظور از تحلیل داده چیست؟

تحلیل داده در واقع فرآیند تجزیه‌و‌تحلیل داده‌های خام به‌منظور استخراج بینش‌های معنادار و عملی از این داده‌هاست. به‌‌عبارت دیگر آنالیز داده‌ها نوعی هوش تجاری است که به شرکت‌ها و سازمان‌ها امکان می‌دهد تا بر اساس آنچه داده‌ها به آن‌ها می‌گویند، تصمیمات هوشمندانه بگیرند.

مراحل مختلف فرآیند تحلیل داده‌ها شامل استخراج (یا جمع‌آوری) داده‌های خام، آماده‌سازی و تجزیه‌و‌تحلیل بعدی آن داده‌ها، کشف و به‌اشتراک‌گذاری بینش‌های کلیدی از داده‌ها و نهایتا استفاده از این بینش‌ها برای توضیح یا پیش‌بینی سناریوها و نتایج خاص، و اطلاع‌رسانی درباره تصمیم‌گیری‌ها، استراتژی‌ها و… مورد نیاز یک کسب‌وکار می‌شود.

شاید این مراحل در قالب کلمات و به‌صورت تئوری کمی انتزاعی به نظر برسد؛ پس بیایید کل فرآیند را با یک مثال بررسی کنیم:

تصور کنید که شما یک تحلیلگر داده هستید که برای یک شبکه حمل‌و‌نقل عمومی مثلا متروی تهران کار می‌کنید. یک رویداد ورزشی بزرگ در شهر در راه است و می‌دانید که مردم از همه‌جای شهر و حتی حاشیه آن راهی استادیوم می‌شوند و احتمالا هم از مترو استفاده می‌کنند. برای جلوگیری از هرج و مرج مطلق، باید برنامه معمول حمل‌و‌نقل عمومی را برای این هجوم مردم و افزایش سفر در سراسر شهر تطبیق دهید. اما چگونه باید از قبل و با دقت بالا برای مدیریت این حجم جمعیت برنامه‌ریزی کرد؟ با تجزیه‌وتحلیل داده‌هایی مثل تعداد و حجم مسافران در دیگر روزهای هفته و همچنین روزهای شلوغ‌تر و حتی زمان برگزاری بازی‌های قبلی. 

در اصل شما برای مدیریت افزایش تعداد مسافران داده‌های رویدادهای مشابهی را که در گذشته اتفاق افتاده است تحلیل می‌کنید و از داده‌های مربوطه برای پیش‌بینی تعداد، فراوانی و انواع سفرهایی که احتمالا در زمان برگزاری این مسابقه ورزشی رخ می‌دهند، استفاده می‌کنید. با این بینش‌ها، می‌توانید مطمئن شوید که سیستم حمل‌و‌نقل عمومی شما در اوج شلوغی هم به روانی کارش را ادامه می‌دهد.

همانطور که می‌بینید، تحلیل داده‌ها، حدس و گمان را با بینش‌های دقیق و واقعی مبتنی بر داده جایگزین می‌کند. این کار به شما کمک می‌کند تا گذشته را درک کنید و روندها و رفتارهای آینده را پیش‌بینی کنید، و در نتیجه برای تصمیم‌گیری هوشمندانه به اطلاعات درست و لازم مجهز شوید.

آیا تحلیل داده‌های کمی و کیفی با هم تفاوت دارد؟

وقتی نوبت به انجام عملی تحقیق‌ و تجزیه‌ و تحلیل داده‌ها می‌رسد، با دو نوع داده سر و کار خواهید داشت: داده کمی و داده کیفی. هر کدام از این داده‌ها روش‌های جمع‌آوری و تحلیل متفاوتی دارند، بنابراین درک تفاوت بین این دو داده در آنالیز داده‌ها بسیار مهم است.

داده‌ کمّی (Quantitative Data) شامل هر نوع داده‌ای است که بتوان آن را کمّی‌سازی کرد. یعنی اگر بتوان مجموعه داده‌ای را شمارش یا اندازه‌گیری کرد و به آن مقدار عددی داد، با داده‌های کمّی طرف هستیم. داده‌های کمی می‌توانند به شما بگویند «چند»، «چقدر» و…، مثلاً چند نفر در وبینار هفته گذشته شرکت کردند؟ درآمد شرکت در سال ۲۰۱۹ چقدر بوده است؟ هر چندوقت یکبار یک گروه مشتری خاص از بانکداری آنلاین استفاده می‌کند؟ 

برخلاف داده‌های کمی، داده‌های کیفی (Qualitative Data) را نمی‌توان اندازه‌گیری یا شمارش کرد. این داده‌ها توصیفی هستند و به جای مقادیر عددی، با مفاهیم زبانی بیان می‌شوند. 

محققان اغلب برای پاسخ به سوالات «چرا» یا «چطور» از داده‌های کیفی استفاده می‌کنند. برای مثال، اگر داده‌های کمی به شما می‌گویند که یک بازدیدکننده وب‌سایت خاص سه بار در یک هفته سبد خرید خود را رها کرده است، احتمالاً می‌خواهید دلیل این موضوع را بررسی کنید. این بررسی هم احتمالا شامل جمع‌آوری نوعی داده کیفی از کاربر خواهد بود. شاید هم بخواهید بدانید که کاربر در مورد یک محصول خاص چه احساسی دارد. اینجا هم داده‌های کیفی می‌توانند چنین بینشی را به شما ارائه دهند. در این نوع تحلیل‌های داده‌ای، شما فقط به اعداد نگاه نمی‌کنید. از کاربر می‌خواهید که با استفاده از زبان، به شما بگوید که چرا کاری انجام داده یا چه احساسی دارد.

داده‌های کیفی همچنین به کلمات یا برچسب‌هایی اشاره دارد که برای توصیف ویژگی‌ها یا ویژگی‌های خاص استفاده می‌شوند؛ مثلا توصیف آسمان با رنگ آبی یا برچسب زدن طعم یک بستنی خاص به‌عنوان بستنی وانیلی.

درضمن داده‌های کمی ثابت و «جهانی» هستند، در حالی که داده‌های کیفی ذهنی و پویا هستند. به‌عنوان مثال، اگر چیزی ۲۰ کیلوگرم وزن داشته باشد، می‌توان آن را یک واقعیت عینی در نظر گرفت. با این حال، دو نفر ممکن است گزارش‌های کیفی بسیار متفاوتی از نحوه تجربه یک رویداد خاص داشته باشند.

به‌زبان ساده‌تر داده‌های کمّی به ما می‌گویند که چه تعداد، چه مقدار یا چند وقت یکبار (مثلاً «۲۰ نفر هفته گذشته در خبرنامه ایمیل ما ثبت نام کردند»). داده‌های کیفی می‌توانند به ما در درک «چرا» یا «چگونه» در پس رفتارهای خاص کمک کنند، یا به سادگی یک ویژگی خاص را توصیف کنند.

براساس این تعاریف تفاوت اصلی بین داده‌های کمی و کیفی در آنچه به ما می‌گویند، نحوه جمع‌آوری و روش‌های تجزیه‌و‌تحلیل آن‌هاست. یعنی داده‌های کمی با اندازه‌گیری و شمارش جمع‌آوری می‌شوند. اما داده‌های کیفی را باید با مصاحبه و مشاهده به‌دست آورد. همچنین داده‌های کمی با استفاده از تجزیه‌و‌تحلیل آماری تحلیل می‌شوند، درحالیکه داده‌های کیفی با گروه‌بندی آن‌ها بر حسب مقوله‌ها یا مضامین معنادار تجزیه‌وتحلیل می‌‌شوند.

وظیفه تحلیلگر داده چیست؟

وظیفه و کار اصلی یک تحلیلگر داده این است که داده‌های خام را به بینش‌های معنادار تبدیل کند. هر نوع تجزیه‌و‌تحلیل داده معمولا با مشکل خاصی که می‌خواهید حل کنید یا سؤالی که باید به آن پاسخ دهید شروع می‌شود. مثلا «چرا در سه ماهه گذشته مشتریان زیادی را از دست دادیم؟» یا «چرا بیماران برنامه‌های درمانی خود را در نیمه راه ترک می‌کنند؟».

یک تحلیلگر داده برای یافتن بینش و پاسخ‌های مورد نیاز این سوالات، معمولا کارهای زیر را انجام می‌دهد:

  • سوال یا مشکل را تعریف می‌کند.
  • داده‌های خام لازم را جمع‌آوری می‌کند.
  • داده‌ها را تمیز می‌کند تا برای تحلیل آماده شوند.
  • داده‌ها را تجزیه‌وتحلیل می‌کند.
  • از نتایج به‌دست آمده به‌کمک نمودارها و جداول تجسم داده‌ای ایجاد می‌کند.
  • یافته‌هایش را به اشتراک می‌گذارد.

البته نقش تحلیلگر داده فقط به انجام همین فرآیند محدود نمی‌شود. به‌عنوان یک تحلیلگر داده، شما موقعیت شغلی بسیار مهمی خواهید داشت. در واقع تحلیل‌گر داده پلی بین داده‌های خام غیرقابل درک و بینش‌های مفید است و به افراد در تمام بخش‌های سازمان قدرت می‌دهد تا تصمیمات هوشمندانه‌تری بگیرند و در نهایت به اهداف خود برسند. بنابراین برای شناسایی اهداف، اولویت‌بندی نیازها و شکل‌دهی استراتژی‌ها، با مدیران، صاحبان محصولات و مدیران بخش همکاری نزدیک خواهید داشت. در ضمن علاوه بر آنالیز واقعی داده‌ها، شما همچنین ممکن است مسئول ساخت دیتابیس یا پایگاه داده‌ها (Database) و داشبوردها، اطمینان از کیفیت داده‌ها و تصمیم‌گیری درباره بهترین شیوه ذخیره‌سازی داده‌ها و نگهداری اسناد مربوطه هم باشید.

فراموش نکنید که وظایف و مسئولیت‌های دقیق بسته به محل کار‌تان متفاوت خواهد بود. می‌توانید برای کسب اطلاعات بیشتر در مورد شرح وظایف تحلیلگر داده، به فرصت‌های شغلی پوزیشن تحلیلگر داده در سایت‌هایی مانند ایران‌تلنت، لینکدین، جابینجا و… نگاهی بیندازید.

تحلیلگران داده کجا می‌توانند کار کنند؟

حالا که دیدیم تجزیه‌و‌تحلیل داده دقیقا یعنی چه و وظایف روزمره یک تحلیلگر داده چیست، بد نیست ببینیم اگر کار در حوزه تحلیلگر داده را دنبال کنید، برای چه نوع صنایع و شرکت‌هایی می‌توانید کار کنید؟ اصلا آیا کار به‌عنوان تحلیلگر داده یک امکان شغلی مطمئن با تقاضای بالاست؟

احتمالا وقتی به تحلیلگران داده و شرکت‌هایی که آن‌ها را استخدام می‌کنند فکر می‌کنید، اول از همه شرکت‌هایی مانند فیس‌بوک، نتفلیکس و اسپاتیفای به ذهنتان می‌رسد. همه این کمپانی‌ها شرکت‌های بزرگ فناوری هستند که برای کار به داده‌ها متکی خواهند بود، اما تجزیه‌وتحلیل داده‌ها فقط برای این شرکت‌های تکنولوژیک ضروری و لازم نیست.

حقیقت این است که تحلیلگران داده می‌توانند برای هر شرکت و کمپانی تجاری و اقتصادی یا حتی فرهنگی و اجرایی و دولتی کار کنند. امروزه تحلیلگران داده تقریبا برای هر نوع سازمان و صنعتی که فکرش را بکنید حیاتی هستند؛ از شرکت‌های بزرگ گرفته تا استارت‌آپ‌های نوپا، از مؤسسات مالی گرفته تا دولت، مراقبت‌های بهداشتی و سازمان‌های غیرانتفاعی. اساسا هرجا که داده‌ها جمع‌آوری می‌شوند (و این روزها تقریبا همه‌جا را شامل می‌شود!)، نیاز به تحلیل‌گران داده هم وجود دارد. یکی از ویژگی‌های عالی در مورد این شغل هم همین است: شما محدود به یک بخش یا نوع شرکت خاصی نخواهید بود. 

در ضمن هرچه داده‌های بیشتری تولید می‌کنیم، بیشتر به تحلیلگران داده برای درک آن داده‌ها نیاز خواهیم داشت. برای همین هم حوزه کاری تجزیه‌وتحلیل داده به‌عنوان زیرمجموعه‌ای از دیتا ساینس و هوش مصنوعی یکی از هفت حرفه نوظهور با رشد فرصت‌های شغلی بالا است. همچنین پتانسیل درآمد برای تحلیلگران داده نسبتا بالا است. بنابراین، علاوه بر تنوع، کار تاثیرگذار و امنیت شغلی، می‌توانید روی حقوق معقول نیز حساب کنید. البته برای تبدیل شدن به یک تحلیل‌گر داده با تجربه و کاربلد که موقعیت شغلی خوبی دارد و حقوق بالایی دریافت می‌کند باید مهارت کار با ابزارهای مختلف تحلیل داده را داشته باشید. پس بهتر است نگاهی هم به ابزارهایی که به‌صورت عملی برای آنالیز دیتا به آن‌ها نیاز خواهید داشت بیندازیم.

ابزارهای لازم برای تحلیل داده کدامند؟

در هر مرحله از فرآیند آنالیز دیتا، تحلیلگران داده از طیف وسیعی از ابزارهای مختلف استفاده می‌کنند؛ مانند اکسل برای ذخیره‌سازی و گروه‌بندی داده‌ها و Tableau برای تجسم داده‌ها. دو نمونه از ابزارهای واقعا کاربردی و رایگان که می‌توانید برای تحلیل داده‌ها از آن‌ها استفاده کنید Google Sheets و Google Slides است. یکی از نکات مثبت این دو ابزار این است که می‌توانید با یک حساب Google (که اگر از جی‌میل استفاده می‌کنید!) به‌صورت رایگان به آن‌ها دسترسی داشته باشید، و نیازی به دانلود چیزی نخواهید داشت، بنابراین راه‌اندازی آن‌ها زمان زیادی طول نمی‌کشد.

البته معمولا تحلیلگران داده در روند تحلیل خود با مجموعه‌ای از این ابزارها کار می‌کنند. مثلا شما می‌توانید تمام تجزیه‌و‌تحلیل خود را در Google Sheets انجام دهید. سپس از Google Slides برای ایجاد یک تابلوی ارائه و خلاصه کردن و نمایش یافته‌های تحلیلی خود استفاده کنید.

یک مثال عملی از تحلیل داده‌ها: تعریف چالش و کار روی مجموعه‌ای از داده‌ها

در این مثال، شما نقش یک تحلیلگر داده را بر عهده خواهید داشت که در Citi Bike – سیستم رسمی اشتراک‌گذاری دوچرخه شهر نیویورک (چیزی شبیه بیدود در ایران) کار می‌کند. 

Citi Bike بزرگترین اپلیکیشن اشتراک دوچرخه در ایالات متحده است که ۲۰۰۰۰ دوچرخه و بیش از ۱۳۰۰ ایستگاه در بخش‌های مختلف شهر ازجمله منهتن، بروکلین، کوئینز، برونکس و جرسی سیتی دارد. کاربران می‌توانند برای عضویت سالانه در سایت این مجموعه ثبت‌نام کنند یا از طریق اپلیکیشن Citi Bike یک اشتراک کوتاه‌مدت خریداری کنند. بعد از ثبت‌نام و خرید اشتراک کاربران می‌توانند به سادگی یک دوچرخه را در نزدیکی خود را پیدا کنند و سوار شوند. پس از اتمام سفرشان هم، دوچرخه را به نزدیک‌ترین ایستگاه برمی‌گردانند.

مانند بسیاری از سازمان‌ها، سیتی بایک هم مرتب به‌دنبال راه‌هایی برای بهبود مدل کسب‌و‌کار خود و ارائه تجربه بهتر به مشتریانش است. اپلیکیشن Citi Bike، داده‌های مفیدی را برای مدیران مجموعه جمع‌آوری می‌کند که در صورت تجزیه‌و‌تحلیل، بینش‌های خوبی را در مورد مواردی مانند جمعیت‌شناسی و رفتار کاربر نشان می‌دهد. برای مثال، زمان‌ها و مکان‌هایی که بیشتر دوچرخه‌ها برداشته یا تحویل داده می‌شوند و اینکه میانگین مدت زمان استفاده کاربران از دوچرخه‌ها چقدر است. 

طبیعتا داده‌هایی مثل اینکه معمولا سفرهای کاربران سیتی بایک چقدر طول می‌کشد برای مدیریت بهتر دوچرخه‌های این مجموعه بسیار ارزشمند خواهد بود. زیرا به کارمندان مجموعه کمک می‌کنند تا درک درست‌تری از نحوه استفاده از سرویس و خدمات‌شان داشته باشند و بر اساس رفتار مشتری‌هایشان برنامه‌ریزی کنند و تصمیم بگیرند. مثلا می‌توانند آگاهانه و دقیق تخمین بزنند و تصمیم بگیرند که چند دوچرخه دیگر باید در سطح شهر نصب کنند تا با رشد تعداد کاربران‌شان سازگاری داشته باشند؟ یا می‌توانند پیش‌بینی کنند که کجا باید بیشترین دوچرخه را نصب کنند؟ حتی می‌توانند تصمیم بگیرند که بازاریابی و تبلیغات خود را به چه کسانی اختصاص دهند؟ اساساً، داده‌های کاربران در سایت و اپلیکیشن به آن‌ها کمک می‌کند تا تعیین کنند که پول و تلاش‌شان کجا و چگونه می‌تواند برای حداکثر سود سرمایه‌گذاری شود.

بنابراین، ماموریت اصلی در این مثال تجزیه‌و‌تحلیل داده‌های جمع‌آوری‌شده توسط Citi Bike است تا براساس آن‌ها مدیران این مجموعه بتوانند تصمیم‌های هوشمندانه و مبتنی بر داده‌ها اتخاذ کنند. پس به‌طور کلی در تحلیلی که از داده‌ها انجام می‌دهیم باید به‌دنبال موارد زیر باشیم:

  • محبوب‌ترین مکان‌ها برای کرایه دوچرخه در سراسر شهر نیویورک سیتی کدامند؟
  • میانگین مدت سفر در گروه‌های سنی مختلف چقدر است و چگونه با هم متفاوت است؟
  • کدام گروه سنی بیشتر دوچرخه کرایه می‌کنند؟
  • آیا اجاره دوچرخه در دو گروه کاربری (کاربران با اشتراک موقت در مقابل مشترکین همیشگی) در روزهای مختلف هفته متفاوت است؟
  • آیا سن کاربر بر میانگین مدت زمان سفر با دوچرخه تأثیر می‌گذارد؟

در واقع کار اصلی برای تحلیل داده‌های این مجموعه یافتن پاسخ این سوالات و در نهایت تبدیل آن‌ها به بینش‌های معنادار برای تصمیم‌گیری است. 

جمع‌بندی

تجزیه‌و‌تحلیل داده‌ها علم جمع‌آوری و آنالیز داده‌های خام برای نتیجه‌گیری در مورد آن داده‌هاست. تجزیه‌و‌تحلیل داده‌ها به کسب‌وکارها کمک می‌کند تا عملکرد خود را بهینه کنند، کارآمدتر عمل کنند، سودشان را به حداکثر برسانند و در کل تصمیمات استراتژیک‌تری اتخاذ کنند. امروزه بسیاری از تکنیک‌ها و فرآیندهای تجزیه‌و‌تحلیل داده‌ها به فرآیندهای مکانیکی و الگوریتم‌هایی تبدیل شده‌اند که روی تبدیل داده‌های خام برای مصرف انسان کار می‌کنند. مثلا یک تحلیلگر داده باید کار با ابزارهای نرم‌افزاری مختلفی مثل اکسل، پلت‌فرم‌های تجسم داده‌ها و ابزارهای گزارش‌ساز، برنامه‌های داده‌کاوی یا زبان‌های برنامه‌نویسی اوپن سورس و… را بلد باشد.

در پست‌ بعدی وبلاگ رهنما کالج، یک مرحله مهم در فرآیند تجزیه‌و تحلیل داده‌ها را معرفی خواهیم کرد: پاکسازی داده‌ها. در این پست به شما نشان خواهیم داد که چگونه مجموعه داده خود را تمیز کنید و داده‌ها را برای تجزیه‌و‌تحلیل دقیق‌تر آماده کنید. بنابراین اگر می‌خواهید یک تحلیلگر داده کاربلد باشید حتما پست‌های تحلیل داده‌ را بخوانید. همچنین می‌توانید با شرکت در بوت کمپ آموزش تحلیل داده رهنما کالج به‌صورت عملی مهارت‌های لازم برای دیتا آنالیز را کسب کنید.

منبع
careerfoundry

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا