🔶هک کردن P یا P-hacking چیست؟
@Karkhanedar_Mag
🌀چند سالی است که متخصصان آمار، برخی رویکردهای رایج در تحلیل آماری دادهها و گزارش نتایج آن را تحت عنوان p-hacking نقد کردهاند. این گزاره که «اگر دادهها را به اندازه کافی شکنجه کنی به هر چیزی اعتراف میکنند» را اکثرا شنیدهایم ولی شاید مبانی آماری/ریاضی آن روشن نباشد. در اینجا سعی میکنیم بدون اینکه خیلی وارد جزییات ریاضی شویم، یک نوع خطای رایج را بحث کنیم.
🌀برای درک دقیقتر p-hacking خوب است یک بار مفهوم p-value را مرور کنیم. در آمار و اقتصادسنجی در توضیح مفهوم p-value میگوییم: چه درصدی از خطا را میپذیریم که که فرض صفر واقعا برقرار باشد ولی ما در نمونه خاصی از داده که داریم این مقدار از آماره را مشاهده کنیم. مثلا وقتی مقدار ۵٪ را برای رد/قبول میپذیریم، میگوییم که «میفهمیم که در ۵٪ اوقات میزان آماره حتی با شرط درستی فرض صفر میتواند از میزان مشاهده شده ما بزرگتر باشد، ولی چون ۵٪ عدد بزرگی نیست، با اطمینان خوبی فرض صفر را رد میکنیم.».
🌀روش p-hacking دقیقا روی رسیدن به آن ۵٪ تمرکز میکند و آن را به عنوان نتیجه واقعی و علمی گزارش میکند. اگر هنوز ماجرا برایتان مبهم است به این مثال توجه کنید: فرض کنید ما میخواهیم اثر چای سبز روی رشد گیاهان را ببینیم. فرض کنیم میدانیم که چای سبز هیچ تاثیری روی رشد ندارد، ولی از هر ۲۰ آزمایش، یکی نشان خواهد داد که چای روی رشد گیاه تاثیر دارد. این یک از بیست، به این معنی نیست که چای روی رشد گیاه اثر خاصی دارد بلکه صرفا میگوید که به خاطر تصادفی بودن شرایط، ما در ۵٪ از نمونهها چنین رابطه - غیرواقعی - را در دادهها مشاهده خواهیم کرد.
🌀حال فرض کنید که ما در ۲۰ اتاق مختلف آزمایش رابطه چای و رشد گیاه را روی تعداد زیادی گیاه انجام میدهیم. اگر کسی نتیجه همه ۲۰ اتاق را با هم مقایسه کند، فورا میفهمد که چای اثری ندارد. ولی اگر محقق پس از دیدن دادهها، نتایج ۱۹ اتاق را دور بیندازد و فقط با استفاده از دادههای یک اتاق، رگرسیونی اجرا کرده و به عنوان نتیجه گزارش کند، خواننده متوجه این حقه نخواهد شد. همه چیز هم درست جلوه خواهد کرد: تعداد زیادی گیاه در گروه آزمایش و گروه کنترل بودند و آمارهها هم کاملا درست هستند.
🌀در اقتصاد و علوم اجتماعی این اتفاق چه طور میافتد؟ معادل آزمایش در اتاقهای مختلف برای ما، تصریح (Sepcification) های مختلفی است که روی مدل میزنیم. مثلا ممکن است برای تخمین عوامل موثر بر درآمد فرد، انواع و اقسام متغیرهای توضیحدهنده از سن و تحصیلات و جنس و نژاد و سابقه خانوادگی و محل سکونت و قد و وزن و الخ را در رگرسیون بگذاریم و آن قدر «ترکیبات مختلف متغیرها و توانها و لگاریتم و تعامل آنها» را امتحان کنیم تا به نتیجه قوی برسیم.
🌀 چند وقت پیش مقالهای را داوری کردم که فرد برخی روابط اقتصادی را روی ۵۰ ایالت آمریکا تخمین زده و مدعی شده بود که در این ۲-۳ ایالت، چنین رابطهای برقرار است و اسم این ایالتها را به عنوان نتیجه تحلیل گزارش کرده بود. در حالی که اگر با نگاه p-hacking به ماجرا نگاه کنیم، میتوانیم بگوییم که یک جامعه نمونه (مثلا کشور آمریکا) را اگر به ۵۰ زیرنمونه تصادفی - بدون هیچ تفاوت نظاممند - بشکنیم و یک مدل را روی این ۵۰ زیر نمونه تست کنیم، محتمل است که در ۲-۳ مورد از زیرنمونهها نتیجه معنیداری در مدل ببینیم. این ۲-۳ مورد معنیدار فقط خطای آماری و نمونهبرداری است و بس.
🌀مثال بسیار رایج دیگر: عملکرد کشورها در مسابقات جهانی ژیمناستیک یا درآمد سرانه یا مرگ و میر نوزادان را بگیریم و «هزاران» متغیر محتمل از آب و هوا تا مصرف شکلات را برای توضیح تفاوت بین کشورها امتحان میکنیم. مطمئنا این وسط چند متغیر (گاه عجب و غریب) پیدا خواهد شد که همبستگی بسیار قوی با خروجی مورد نظر داشته باشد، بدون اینکه واقعا رابط خاصی بین این متغیرها باشد.
🌀 در روشهای مختلف آماری، شهود ناشی از نقد p-value با اسامی مختلف تکرار میشود. مثلا در یادگیری ماشینی (ML) که الگوریتم تعداد خیلی زیادی متغیر توضیحدهنده و ترکیبات مختلف آنان را بررسی میکند، شانس زیادی هست که در داخل نمونه آموزش، بلاخره رابطهای پیدا شود ولی این رابطه حقیقی نیست و به این خاطر عملکرد ضعیفی در خارج-از-نمونه میبینیم.
✍️دکتر حامد قدوسی
🔅این متن را اگر میپسندید، برای دیگران نیز ارسال کنید.🔅
#كارخانه_دار
👇👇👇
@Karkhanedar_Mag
@Karkhanedar_Mag
🌀چند سالی است که متخصصان آمار، برخی رویکردهای رایج در تحلیل آماری دادهها و گزارش نتایج آن را تحت عنوان p-hacking نقد کردهاند. این گزاره که «اگر دادهها را به اندازه کافی شکنجه کنی به هر چیزی اعتراف میکنند» را اکثرا شنیدهایم ولی شاید مبانی آماری/ریاضی آن روشن نباشد. در اینجا سعی میکنیم بدون اینکه خیلی وارد جزییات ریاضی شویم، یک نوع خطای رایج را بحث کنیم.
🌀برای درک دقیقتر p-hacking خوب است یک بار مفهوم p-value را مرور کنیم. در آمار و اقتصادسنجی در توضیح مفهوم p-value میگوییم: چه درصدی از خطا را میپذیریم که که فرض صفر واقعا برقرار باشد ولی ما در نمونه خاصی از داده که داریم این مقدار از آماره را مشاهده کنیم. مثلا وقتی مقدار ۵٪ را برای رد/قبول میپذیریم، میگوییم که «میفهمیم که در ۵٪ اوقات میزان آماره حتی با شرط درستی فرض صفر میتواند از میزان مشاهده شده ما بزرگتر باشد، ولی چون ۵٪ عدد بزرگی نیست، با اطمینان خوبی فرض صفر را رد میکنیم.».
🌀روش p-hacking دقیقا روی رسیدن به آن ۵٪ تمرکز میکند و آن را به عنوان نتیجه واقعی و علمی گزارش میکند. اگر هنوز ماجرا برایتان مبهم است به این مثال توجه کنید: فرض کنید ما میخواهیم اثر چای سبز روی رشد گیاهان را ببینیم. فرض کنیم میدانیم که چای سبز هیچ تاثیری روی رشد ندارد، ولی از هر ۲۰ آزمایش، یکی نشان خواهد داد که چای روی رشد گیاه تاثیر دارد. این یک از بیست، به این معنی نیست که چای روی رشد گیاه اثر خاصی دارد بلکه صرفا میگوید که به خاطر تصادفی بودن شرایط، ما در ۵٪ از نمونهها چنین رابطه - غیرواقعی - را در دادهها مشاهده خواهیم کرد.
🌀حال فرض کنید که ما در ۲۰ اتاق مختلف آزمایش رابطه چای و رشد گیاه را روی تعداد زیادی گیاه انجام میدهیم. اگر کسی نتیجه همه ۲۰ اتاق را با هم مقایسه کند، فورا میفهمد که چای اثری ندارد. ولی اگر محقق پس از دیدن دادهها، نتایج ۱۹ اتاق را دور بیندازد و فقط با استفاده از دادههای یک اتاق، رگرسیونی اجرا کرده و به عنوان نتیجه گزارش کند، خواننده متوجه این حقه نخواهد شد. همه چیز هم درست جلوه خواهد کرد: تعداد زیادی گیاه در گروه آزمایش و گروه کنترل بودند و آمارهها هم کاملا درست هستند.
🌀در اقتصاد و علوم اجتماعی این اتفاق چه طور میافتد؟ معادل آزمایش در اتاقهای مختلف برای ما، تصریح (Sepcification) های مختلفی است که روی مدل میزنیم. مثلا ممکن است برای تخمین عوامل موثر بر درآمد فرد، انواع و اقسام متغیرهای توضیحدهنده از سن و تحصیلات و جنس و نژاد و سابقه خانوادگی و محل سکونت و قد و وزن و الخ را در رگرسیون بگذاریم و آن قدر «ترکیبات مختلف متغیرها و توانها و لگاریتم و تعامل آنها» را امتحان کنیم تا به نتیجه قوی برسیم.
🌀 چند وقت پیش مقالهای را داوری کردم که فرد برخی روابط اقتصادی را روی ۵۰ ایالت آمریکا تخمین زده و مدعی شده بود که در این ۲-۳ ایالت، چنین رابطهای برقرار است و اسم این ایالتها را به عنوان نتیجه تحلیل گزارش کرده بود. در حالی که اگر با نگاه p-hacking به ماجرا نگاه کنیم، میتوانیم بگوییم که یک جامعه نمونه (مثلا کشور آمریکا) را اگر به ۵۰ زیرنمونه تصادفی - بدون هیچ تفاوت نظاممند - بشکنیم و یک مدل را روی این ۵۰ زیر نمونه تست کنیم، محتمل است که در ۲-۳ مورد از زیرنمونهها نتیجه معنیداری در مدل ببینیم. این ۲-۳ مورد معنیدار فقط خطای آماری و نمونهبرداری است و بس.
🌀مثال بسیار رایج دیگر: عملکرد کشورها در مسابقات جهانی ژیمناستیک یا درآمد سرانه یا مرگ و میر نوزادان را بگیریم و «هزاران» متغیر محتمل از آب و هوا تا مصرف شکلات را برای توضیح تفاوت بین کشورها امتحان میکنیم. مطمئنا این وسط چند متغیر (گاه عجب و غریب) پیدا خواهد شد که همبستگی بسیار قوی با خروجی مورد نظر داشته باشد، بدون اینکه واقعا رابط خاصی بین این متغیرها باشد.
🌀 در روشهای مختلف آماری، شهود ناشی از نقد p-value با اسامی مختلف تکرار میشود. مثلا در یادگیری ماشینی (ML) که الگوریتم تعداد خیلی زیادی متغیر توضیحدهنده و ترکیبات مختلف آنان را بررسی میکند، شانس زیادی هست که در داخل نمونه آموزش، بلاخره رابطهای پیدا شود ولی این رابطه حقیقی نیست و به این خاطر عملکرد ضعیفی در خارج-از-نمونه میبینیم.
✍️دکتر حامد قدوسی
🔅این متن را اگر میپسندید، برای دیگران نیز ارسال کنید.🔅
#كارخانه_دار
👇👇👇
@Karkhanedar_Mag