تبدیل داده ها به اطلاعات: هدف یک پروژه شش سیگما تولید حجم عظیمی از داده ها نیست که منجر به ترساندن افراد مربوطه شود. هدف این است که تا آنجایی که ممکن است داده ها را بیابید و آن ها را به اطلاعات معناداری تبدیل کنید که می تواند توسط پرسنل مربوطه برای تصمیم گیری معنادار در مورد فرآیند استفاده شود. با این حال، برای آن فرد باید یاد بگیرد که چگونه از نظر آماری با حجم عظیمی از داده ها برخورد کند.

داده ها در درجه اول باید به دلیل دو ویژگی آن یعنی تمایل مرکزی و پراکندگی درک شوند. داده ها حول نقطه ای متمرکز می شوند که به آن میانگین می گویند. میزان انتشار آن از آن نقطه نیز مهم است زیرا تأثیر مهمی بر احتمال دارد. به همین دلیل است که ما از ویژگی های زیر برای درک داده های درگیر استفاده می کنیم:

معیارهای گرایش مرکزی: انواع مختلف داده ها به معیارهای متفاوتی از گرایش مرکزی نیاز دارند. برخی از اقدامات مهم که معمولاً مورد استفاده قرار می گیرد به شرح زیر است:

 

  • میانگین: این به احتمال زیاد میانگین حسابی یا صرفاً میانگین نقاط داده درگیر است. همچنین می تواند میانگین هندسی یا هارمونیک باشد اما غیرعادی است. این محبوب ترین معیار گرایش مرکزی است. بسیاری از تکنیک‌های آماری تکامل یافته‌اند که از میانگین به‌عنوان معیار اولیه برای درک مرکزیت یک مجموعه معین از نقاط داده استفاده می‌کنند. 

     

  • میانه: اگر تمام نقاط داده داده شده در یک مجموعه داده خاص به ترتیب صعودی یا نزولی مرتب شده باشند، مقدار در مرکز را میانه می گویند. در مواردی که مجموعه داده ها دارای تعداد فرد عناصر مانند 7 هستند، میانه چهارمین مورد است زیرا دارای 3 نقطه داده در هر طرف است. در صورتی که عدد زوج برابر 8 باشد، میانه میانگین نقطه داده 4 و 5 است. میانه در جایی استفاده می شود که اعداد پرت وجود داشته باشد، یعنی اعداد بزرگی که بر میانگین ارائه یک تصویر نادرست از داده های مربوطه تأثیر می گذارد. 

     

  • حالت: این مقدار موردی است که اغلب در مجموعه داده اتفاق می افتد. این مقدار بیشترین عدد مورد انتظار برای رخ دادن است. 

معیارهای پراکندگی: درجه پراکندگی، احتمال و سطح اطمینانی را که فرد می تواند نسبت به نتایج به دست آمده از معیارهای گرایش مرکزی داشته باشد، تعیین می کند. معیارهای رایج پراکندگی به شرح زیر است:

 

  • Range: دو نقطه پایانی که تمام مقادیر یک مجموعه داده بین آنها قرار می گیرد، محدوده نامیده می شود. این مهم است زیرا به طور کامل شامل همه احتمالات است. 

     

  • ربع ها : مجموعه داده ها به 4 مجموعه تقسیم می شود و تعداد عناصر هر مجموعه مورد مطالعه قرار می گیرد تا داده هایی در مورد چارک ها به ما ارائه شود. معیارهای مشابه شامل دهک و صدک است. با این حال، چارک ها همچنان به طور گسترده مورد استفاده قرار می گیرند. 

     

  • انحراف استاندارد: یک فرمول پیچیده برای بررسی انحراف معیار مجموعه داده شده ای از داده ها استفاده می شود. هر چند انحراف معیار مانند میانگین باشد، مهم ترین معیار پراکندگی است و تقریباً در هر تکنیک آماری به طور کامل استفاده می شود. 

بدون نظر

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *