نمونه گیری و داده ها
الف) مقدمه
احتمالا در ابتدای مسیر اولین سوالی که ذهنتان را درگیر می کند این است که چرا آمار؟ یا اینکه کجا می توان از آمار استفاده کرد. اگر روزنامه بخوانید، تلویزیون تماشا کنید یا از اینترنت استفاده کنید، اطلاعات آماری را مشاهده خواهید کرد. آماری در مورد جرم، ورزش، آموزش، سیاست، املاک و مستغلات. پس به طور معمول، زمانی که یک مقاله روزنامه ای را می خوانید یا یک برنامه خبری را تماشا می کنید، اطلاعاتی به شما داده می شود. با استفاده از این اطلاعات، شما می توانید در مورد درستی بیانیه، ادعا یا واقعیت تصمیم بگیرید. آگاهی به روش های آماری می توانند به شما کمک کنند تا بهترین حدس را بزنید.
پس به دلیل اینکه در مقطعی از زندگی به شما پیرامون یک موضوع به خصوص اطلاعات آماری داده می شود، توانمندی در تجزیه و تحلیل دقیق اطلاعات لازم و ضروری است. به خرید خانه یا مدیریت بودجه فکر کنید. به حرفه انتخابی خود فکر کنید. رشته های اقتصاد، تجارت، روانشناسی، آموزش، زیست شناسی، حقوق و علوم کامپیوتر در ابتدای مسیر حداقل به یک دوره آماری نیاز دارند.
در این آموزش شما با ایده های اصلی و کلمات آمار و احتمال برخورد خواهید داشت. در ادامه درک خواهید کرد که آمار و احتمال با یکدیگر کار می کنند. نحوه جمع آوری صحیح داده ها را خواهید آموخت و نیز توانایی تشخیص داده خوب از بد را به دست می آورید.
ب) مفهوم آمار، احتمال و اصطلاحات کلیدی
آمار
علم آمار با جمع آوری، تحلیل، تفسیر و ارائه داده ها سروکار دارد. داده هایی که روزانه در زندگی خود مشاهده و استفاده می کنیم.
در این آموزش، شما سازماندهی و خلاصه کردن داده ها را فرا خواهید گرفت. ساماندهی و جمع بندی داده ها را آمار توصیفی می نامند. دو روش برای جمع بندی داده ها وجود دارد: استفاده از نمودار و استفاده از اعداد. مثلا یافتن یک میانگین. پس از مطالعه احتمال و توزیع احتمال، از روش های رسمی برای نتیجه گیری از داده های خوب استفاده خواهید کرد. روش های رسمی را آمار استنباطی می نامند. استنباط آماری، برای تعیین میزان اطمینان از صحت نتیجه گیری از احتمال استفاده می کند.
تفسیر یا استنباط کارآمد داده ها، مبتنی بر روش های خوب تولید داده و بررسی دقیق آن ها است. فرمول های ریاضی متعددی برای تفسیر داده ها مورد استفاده می باشند. اما باید توجه داشت که هدف آمار انجام محاسبات بی شمار با استفاده از فرمول ها نیست، بلکه مقصد نهایی دستیابی به یک شناخت صحیح از داده ها می باشد. محاسبات را می توان با استفاده از ماشین حساب یا کامپیوتر انجام داد، ولی فهم موضوع باید زاییده ذهن شما باشد. اگر بتوانید اصول آماری را کاملاً درک کنید، می توانید در تصمیماتی که در زندگی خود می گیرید اطمینان بیشتری داشته باشید.
مدل های آماری (Statistical models)
آمار، مانند تمام شاخه های دیگر ریاضیات، از مدل های ریاضی برای توصیف پدیده هایی که در دنیای واقعی اتفاق می افتند، استفاده می کند. برخی از مدل های ریاضی قطعی هستند. وقتی یک مقدار دقیقاً از یک مقدار دیگر تعیین شود، می توان از این مدل ها استفاده کـرد. نمونه هایی از مدل های قطعی معادلات درجه دوم هستند که شتاب ماشین را از حالت استراحت توصیف می کنند یا معادلات دیفرانسیل که انتقال گرما از اجاق به دیگ را شرح می دهند. این مدل ها کاملاً دقیق بوده و می توان از آن ها برای پاسخ به سوالات و پیش بینی ها با دقت بالا استفاده کرد. به عنوان مثال، سازمان های فضایی از مدل های قطعی برای پیش بینی میزان دقیق رانش لازم برای موشک، به منظور جدا شدن از جاذبه زمین و رسیدن به مدار استفاده می کنند.
با این حال، زندگی همیشه دقیق نیست. در حالی که دانشمندان می توانند به صورت لحظه ای زمان طلوع خورشید را پیش بینی کنند، اما نمی تواننـد دقیقاً بگویند که یک طوفان در کجا فـرود می آید. در این شرایط می توان از مدل های آماری برای پیش بینی شرایط نامطمئن زندگی استفاده کرد. این اشکال خاص از مدل ها یا توابع ریاضی بر اساس این ایده است که یک مقدار بر مقدار دیگر تأثیر می گذارد.
برخی از مدل های آماری، توابع ریاضی هستند که دقیق تر می باشند. به طور مثال، یک مجموعه از مقادیر می تواند مجموعه دیگری از مقادیر را پیش بینی یا تعیین کند. اما برخی از مدل های آماری توابع ریاضی هستند که در آن ها مجموعه ای از مقادیر سایر مقادیر را به طور دقیق تعیین نمی کنند. مدل های آماری بسیار مفید می باشند، زیرا قادرند احتمال وقوع یک واقعه را توصیف کرده و در صورت عدم وقـوع آن، نتایج جایگزینی ارائه دهند. پیش بینی های هواشناسی نمونه هایی از مدل های آماری است. همانطور که می دانید، هواشناسان نمی توانند با اطمینان کامل آب و هوای فردا را پیش بینی کنند. با این حال، آن ها اغلب از مدل های آماری استفاده می کنند تا به شما بگویند که در هر زمان چقدر احتمال بارش باران وجود دارد و شما می توانید خود را بر اساس این احتمال آماده کنید.
احتمال یا Probability
احتمال یک ابزار ریاضی است که برای بررسی و مطالعه تصادفی بودن یک اتفاق استفاده می شود. به بیان دیگر، Probability با احتمال وقوع یک واقعه سر و کار دارد. به طور مثال، اگر یک سکه را چهار بار به صورت صحیح بیندازید، ممکن است دو بار شیر و دو بار خط مشاهده نشود. حال اگر ۴۰۰۰ بار همان سکه را بیندازید، نتایج به نصف شیر و نصف خط نزدیک می شود. احتمال مورد انتظار در تئوری برای مشاهده شیر یا خط در هر بار انداختن سکه، ۵۰ درصد یا ۰٫۵ است. درست است که نتایج چند تکرار محدود قابل تشخیص نمی باشد، اما تکرارهای زیاد سبب ایجاد یک الگوی منظم در نتایج خواهد شد. کارل پیرسون، یک آمار شناس (Statistician) انگلیسی بود که ۲۴۰۰۰ بار سکه را انداخت و ۱۲۰۱۲ بار شیر آمد. در آزمایش پیرسون، موضوع اشاره شده پیرامون تکرارهای زیاد به خوبی قابل رویت است.
برای پیش بینی احتمال وقوع زمین لرزه، باران یا اینکه آیا شما در این دوره آموزشی قادر به کسب نمره کامل هستید یا نه، از احتمالات استفاده می شود. همچنین محققین برای تعیین اینکه واکسیناسیون چقدر سبب جلوگیری از ابتلای به بیماری می شود، از احتمال استفاده می کنند. همچنین یک کارگزار سهام برای تعیین نرخ بازدهی سرمایه گذاری مشتریان خود نیز از احتمال استفاده می کند. پس Probability در بخش های مهمی از زندگی انسان ها نقشی تعیین کننده دارد و داشتن آگاهی و علم کافی نسبت به آن، می تواند موجب پیشرفت و بهبود کیفیت زندگی شود.
اصطلاحات کلیدی
جمعیت، نمونه گیری، داده: در آمار هدف کلی مطالعه یک جمعیت به خصوص (مجموعه ای از افراد یا اشیاء) است. به منظور مطالعه یک جمعیت، نیاز به نمونه گیری داریم. مفهوم نمونه گیری انتخاب بخشی یا زیرمجموعه ای از یک جمعیت بزرگتر و مطالعه آن برای کسب اطلاعات در مورد جمعیت مورد نظر می باشد. در نهایت داده ها حاصل نمونه گیری از یک جمعیت هستند.
اما چرا نمونه گیری؟ زیرا بررسی تمام جمعیت به زمان و هزینه بسیار زیادی نیاز دارد. نمونه گیری یک تکنیک بسیار کاربردی است. اگر قصد دارید معدل کلی مدرسه خود را محاسبه کنید، انتخاب دانش آموزانی که در مدرسه شما تحصیل می کنند منطقی خواهد بود. داده های جمع آوری شده از نمونه، معدل دانش آموزان است.
به کمک داده های حاصل از نمونه گیری، می توان یک مطالعه آماری را انجام داد. به بیانی می توان گفت که آمار عددی است که خاصیت نمونه را نشان می دهد. به عنوان مثال، یک کلاس زیست شناسی را به عنوان نمونه ای از جمعیت کلیه کلاس های زیست شناسی در نظر بگیرید. در این صورت میانگین تعداد نمرات کسب شده توسط دانش آموزان در آن کلاس زیست شناسی در پایان ترم نمونه ای از آمار است. از آنجا که ما داده های مربوط به تمام کلاس های زیست شناسی را نداریم، این آمار بهترین تخمین ما از میانگین کل تمام کلاس های زیست شناسی است.
پارامتر: حال اگر داده هایی برای تمام کلاس های زیست شناسی داشته باشیم، می توانیم پارامتر جمعیت را پیدا کنیم. یک پارامتر مشخصه ای عددی برای تمام جمعیت است که می تواند توسط یک آمار تخمین زده شود. در صورتی که تمام کلاس های زیست شناسی را در نظر بگیریم، میانگین تعداد امتیازات کسب شده برای هر دانش آموز در کل کلاس های زیست شناسی، مثالی از یک پارامتر می باشد.
یکی از نگرانی های اصلی در مطالعات آماری، میزانِ دقت آمار در ارزیابی یک پارامتر است. یک نمونه باید شامل مشخصات جمعیت باشد تا به عنوان یک نمونه دقیق که نماینده مناسبی از جمعیت است در نظر گرفته شود.
متغیر: یک متغیر، که معمولاً با حروف بزرگ مانند X و Y نمایش داده می شود، یک مشخصه قابل اندازه گیری بوده که می تواند برای هر یک از اعضای یک جمعیت تعیین شود. متغیرها ممکن است مقادیری مانند وزن به کیلوگرم یا یک موضوع مورد علاقه در مدرسه را توصیف کنند. داده ها مقادیر واقعی متغیر هستند. ممکن است عدد باشند یا کلمه.