![]() |
آمارزيستي و اپيدميولوژي |
![]() |
آرشیو مطالب |
![]() |
تماس با مدیریت وبلاگ |
![]() |
صفحه نخست |
![]() |
![]() من احسان صباغيان، دانشجوي كارشناسي ارشد آمارزيستي دانشگاه علوم پزشكي مشهد هستم. علاقه مند به مباحث كاربردي آمار در علوم مختلف، به خصوص پزشكي.
اين وبلاگ قرار است جايگاهي براي ارائه تجربيات و مطالب متنوع در ارتباط با آمارزيستي و برادرخوانده آن اپيدميولوژي باشد
RSS طراح قالب |
دوست عزیزم آقای علیرضا پاک گوهر در یکی از پست های وبلاگشون به یکی از معایب روش تحلیل واریانس روتین یا همون ANOVA اشاره ای داشتند. ایشون به درستی به این نکته تاکید کردند که اگر فرض همگنی واریانس در گروه های مورد بررسی در تحلیل واریانس وجود نداشته باشه، اون وقت این روش از قابلیت اعتماد کافی برای تحلیل داده های مدنظر برخوردار نیست. بیان این نکته باعث شد تا ببینیم آیا راه حلی برای این موضوع وجود داره یا نه. خوب ابتدا ذهنم به سمت آزمون ناپارامتری تحلیل واریانس یعنی آزمون کروسکال - والیس رفت، اما یادم اومد که این آزمون هم فرضیه ای مبنی بر همگنی واریانس در گروه های مورد بررسی داره. بعد از اون به سراغ اینترنت رفتم و یک مطلبی در مورد تحلیل واریانس با استفاده از روش ولش (Welsh) پیدا کردم. اما با دیدنم این نام یادم افتاد که این اسم و یک جایی تو نرم افزار SPSS و SAS دیدم که با مراجعه به هر دوی این نرم افزارها دیدم که بله ... این روش که در مواقعی که فرض همگن بودن واریانس در گروه های مورد بررسی نقض می شه به کار میرود. اگر خواستید بدونید کجا می شه این ها رو تو نرم افزار SPSS پیدا کرد، بایستی به قسمت option زیر گزینه تحلیل واریانس برید و اون جا این آزمون و پیدا خواهید کرد. البته نرم افزار SPSS یک آزمون دیگه به نام Brown- Forsythe هم معرفی کرده، که البته تو Help نرم افزار اشاره شده در صورتی که گروه های مورد بررسی هم دارای واریانس های ناهمگون و هم دارای حجم نمونه غیر یکسانی هستند، آزمون Welsh پرتوان تر عمل خواهد کرد. در نرم افزار SAS هم شما می تونید هم در Proc ANOVA و هم در Proc GLM در قسمت دستور MEANS آزمون Welsh و پیدا کنید. تو این سایت هم یک مقدار کوتاهی در مورد فرمول محاسباتی روش Welsh توضیح داده: http://www.uvm.edu/~dhowell/gradstat/psych340/Lectures/Anova/anova2.html تازه آزمون های چندگانه زمانی که فرض همگنی واریانس صادق نیست هم وجود دارند. این باشه واسه مطالب بعدی.
تشخیص نرمال بودن یک متغیر با استفاده از n+1 آزمون مختلف در حال حاضر در بسیاری از نرم افزارهای آماری امکان پذیر است. معروفترین و در عین حال یکی از قویترین آزمون های موجود در زمینه یک متغیره آزمون Shapiro-Wilk هست که همه باهاش آشنا هستند و تقریباً تمامی نرم افزارهای آماری این آزمون و انجام می دن. اما در زمانی که ما با یک سری از متغیرها سر و کار داریم و می خوایم اون ها و به صورت هم زمان مورد بررسی قرار بدیم بایستی از روش های چندمتغیره پیوسته (در صورت پیوسته بودن متغیرها) استفاده کنیم. تقریباً بیشتر روش های آماری چند متغیره مبنی بر فرض نرمال بودن بردار متغیرها است. حالا این جا این سوال مطرح می شه که چطور می تونیم فرض نرمال بودن رو در حالت چند متغیره بسنجیم. در نظریه اگر تعدادی متغیر داشته باشیم که توزیع چند متغیره اون ها نرمال باشه، اون وقت هم تک تک متغیرها و هم هر ترکیب خطی از اون متغیرها دارای توزیع نرمال خواهد بود، اما بالعکس این موضوع صادق نیست. یعنی ممکن همه متغیرهای موجود دارای توزیع نرمال باشند، اما توزیع همزمان یا چند متغیره اون ها نرمال نباشه که این مثال نقض و مباحث مرتبط با اون در کتاب روش های چندمتغیره جانسون آورده شده. اما در عمل اون چیزی که انجام میشه این که می یایم فرض نرمال بودن تک تک متغیرها رو بررسی می کنیم و اگر همشون نرمال بودن رای به نرمال بودن توزیع چندمتغیره اون ها می دیم که این موضوع به لحاظ نظری (همون طور که گفتم) دچار نقص هست. حالا چی کار کنیم؟ من خودم دنبال این موضوع بودم و بالاخره تونستم آزمون تعمیم یافته Shapiro-Wilk و در حالت چند متغیره پیدا کنم. این آزمون و شما می تونید در نرم افزار R با استفاده از Package به نام mvShapiroTest انجام بدید. این آزمون بر اساس مقاله زیر ساخته شده: Villasenor-Alva, J.A. and Gonzalez-Estrada, E. (2009). A generalization of Shapiro-Wilk’s test for multivariate normality. Communications in Statistics: Theory and Methods,38 11,1870-1883. اگر خواستید این آزمون و در عمل استفاده کنید می تونید از آدرس زیر Package مربوطه و دانلود کنید: http://cran.um.ac.ir/web/packages/mvShapiroTest/index.html بعد هم به قول معروف حالش و ببرید (فقط این نکته رو بگم که چندتا آزمون دیگه هم تو این زمینه هست، اما فعلاً این یکی رو داشته باشین تا بعد)
به مناسبت یکم آبانماه، روز ملی آمار، همایش کاربرد آمار در اقتصاد و
بازرگانی برگزار میگردد. این همایش به همت کانون مهر اندیشان ایران زمین
و با همکاری اتاق بازرگانی استان اصفهان در شهر اصفهان برگزار میشود.
مباحث مرتبط با آزمون های تشخیصی به نظر من به معنای واقعی یعنی در آوردن همه چیز از هیچ چیز است. چون که شما از یک جدول دو در دو ساده کلی اطلاعات حالب با تفاسیر مختلف می تونید استخراج کنید که یکی از اون ها همین ارزش اخباری مثبت و منفی است. طریقه محاسبه خود ارزش اخباری مثبت و منفی که مشخص است و در انواع نرم افزارهای آماری وجود داره، اما من خودم چند وقتی بود که به دنبال واریانس و در ادامه اون فاصله اطمینان این دو معیار بودم که خوشبختانه تونستم مقاله اون و پیدا کنم. آدرس مقاله و در زیر آوردم عنوان مقاله هست: "Confidence Intervals for Predictive Values Using Data from a Case Control Study" http://www.bepress.com/uwbiostat/paper271/ راستی اگر علاقه مند به مباحث آزمون های تشخیصی هستید می تونید به سایت این آماردان عزیز هم سری بزنید، ایشون گویا زمینه کاری مرتبط با این موضوع دارند:
خوب این ترم، ترم آخری است که ما درس کلاسی خواهیم داشت. ترم دیگه فقط می مونه ۶ واحد پایان نامه. این ترم ۴ تا درس ۳ واحدی دارم.
تحلیل داده های طبقه بندی شده با دکتر جباری تحلیل چند متغیره کاربردی با دکتر عمادی کارآزمایی بالینی با دکتر اسماعیلی روشهای آمارزیستی ۳ به طور مشترک با دکتر دوستی و دکتر اسماعیلی یعنی به تمام معنا این ترم، ترم پوست انداختن است به تمام معنا. البته درس هایی هم که دارم علاوه بر یکم سخت بودنشون، درس های واقعاً کاربردی هستند به معنای واقعی کاربردی. حالا اینجا می خوام واستون یکم از سرفصل ها و منابع هر کدوم از این درسها بگم. اول از درس دکتر جباری شروع می کنم تحلیل داده های طبقه بندی شده منابع: Modelling Binary Data, David Collet (این کتاب و کسی PDFنداره؟) Categorical Data Analysis, Alan Agresti Applied Logistic Regression, David W.Hosmer & Stanley Lemeshow سرفصل:
نرم افزار مورد استفاده SPSS
سوال فوق رو یک فرد محقق در زمینه مطالعات اقتصادی تو یکی از گروه های yahoo که مرتبط با علم آمار پرسیده بود. جواب های مختلفی به این سوال داده شده بود، من یکی از اون ها رو انتخاب کردم و براتون این جا گذاشتم. امیدوارم مفید فایده باشه. Your question is quite philosophical. Do the random variables really exist?. or in another way. is the randomness inherent to the real world?
The answer for that question is embodied in another discution. At the begin of the XX century the discution was protagonized by A Einstein and Heisenberg about of uncertainty principle. Einstein once said: "God does not play dice".
Albert Einstein believed that randomness is a reflection of our ignorance of some fundamental property of reality, while Niels Bohr believed that the probability distributions are fundamental and irreducible, and depend on which measurements we choose to perform. Einstein and Bohr debated the uncertainty principle for many years.
The determinism scientist at that time believed that always could be posible to find a relation between variables on wich everything could be explain completely.
Another clear example of the randomness are the laws inheritance. If the result of genetic combinations do the same result then you and your brothers and sisters could have been identic.
If you believe that randomness is valid only in the nature or biological events. In the industry it was proved that even the machines have little variations in its production.
Some times the randomness is introduced by the choose mechanism. As in Surveys Sample.
Example: We want to know the mean diameter in a population of 10,000 trees. Then we decide to get a sample because is expensive to take measures to each tree. Take in count that the real measure in a especific time is constant in each tree. But the result is random, because it depends on the sample.
BOGARTH HDZ CRISANTY
Licenciatura en Estadística
Universidad Autónoma Chapingo
از عجایب روزگار این که شما رشته ات آمار باشه اما باید از هزار و یک چیز دیگه سر در بیاری. اگر تو زمینه اقتصادی فعالیت می کنی باید با مفاهیم اقتصادی مثل ضریب جینی، دهک، انواع نرخ تورم ها، روش قیمت گذاری بورس و ... آشنا باشی. اگر در زمینه علوم اجتماعی و روانشناسی باشی هم همین طور و در هر زمینه ای که فعالیت می کنید این موضوع وجود داره. اما موضوع زمانی جالب می شه که شما (به خاطر ماهیت رشته آمار) در چند زمینه مختلف کار می کنید. یعنی مثلاً هم در زمینه پزشکی و هم در زمینه علوم اجتماعی و هم در زمینه اقتصادی (وضعیتی که من متاسفانه به اون دچار شدم) اون وقت که احساس می کنی که ... واقعاً احساسش قابلیت بیان شدن و نداره چون شبیه به هیچ احساسی نیست. اما مقدمه! بالا رو برای این گفتم که بگم واقعاً رشته جالبی داریم. درسته که ممکنه شما به عنوان یک آماردان مجبور باشید با مفاهیم مختلفی آشنا بشید اما در عوض اطلاعات جالبی به دست می یارید. به عنوان مثال در همین یک ماه اخیر من کلی اطلاعات در مورد روانشناسی روابط زناشویی یاد گرفتم. یاد گرفتم که چه عواملی بر روی اون تاثیر می ذاره و چه راه کارهایی برای بهبود اون وجود داره. این کار فقط به واسطه همکار طرح بودن تو دو تا پایان نامه روانشناسی اتفاق افتاد. تازه نکته جالبش این که اطلاعاتی که از توی این پایان نامه ها به دست می یاد همه بر اساس واقعیات جامعه است و با روش های علمی بررسی شده و قطعاً از صحت بالای برخوردار است. من می تونم به جرات بگم رشته ما هم به درد دنیا و هم به درد آخرتمون می خوره. جدی می گم، روش یکم فکر کنید!
این اواخر یک پرسشنامه به دستم رسید که مثل خیلی از پرسشنامه های دیگه از مقیاس لیکرت برای طراحی سوالاتش استفاده کرده بود. محقق مربوطه می خواست با استفاده از این اطلاعات میانگین و انحراف معیار و برای هر سوال استخراج بکنه. اگر یکم دستتون تو کار باشه انجام این کار به صورت کاملاً طبیعی تو طرح های تحقیقاتی رخ می ده. خود منم چندین بار این کار و کردم. اما این بار یکم به فکر فرو رفتم که آیا انجام این کار صحیح. چونن مقیاس لیکرت و بر اساس منابعی که دیدم با استفاده از آزمون های ناپارامتری تحلیل می کنن، بنابراین مقادیر استخراجی از مقیاس لیکرت قاعدتاً نباید مقادیر عددی باشه، بلکه لیکرت مقیاسی به صورت طبقه ای تعریف کرده که بر اساس تعاریف موجود نمی توان مقادیر تخصیص داده شده به طبقات و جمع و تفریق کرد در نتیجه میانگین و واریانس گرفتن از این مقیاس کار اشتباهی است. اما خوشبختانه یک نکته وجود داره که من و نجات داد و اون این که اگر تعداد سوالاتی که در یک پرسشنامه از مقیاس لیکرت استفاده کرده اند بیشتر از 5 عدد باشد و یا تعداد گزینه های هر سوال بر اساس مقیاس لیکرت بیشتر از 5 عدد باشه، اون وقت می توان با کمی تقریب مقیاس لیکرت و از طبقه ای به فاصله ای تبدیل کرد و در نهایت از چهار عمل اصلی برای اعداد اختصاص یافته به گزینه ها استفاده نمود. این و از خودم نگفتم ها از اینجا بود که گفتم: http://en.wikipedia.org/wiki/Likert_scale
احتمال زیاد تا آخر همین هفته بایستی تمامی موارد لازم برای درس سمینار پایاننامهام و جمع و جور کنم و ارائه بدم. الان هم در حال آماده کردن فایل ارائه هستم، فعلاً درگیر انتخاب قالب فایلام، آخه میخوام قالبش به موضوع پایاننامهام بخوره، یعنی یک جورایی نشون بده که موضوع اون در ارتباط با ژنتیک آماری است. درسته موضوع پایاننامهام در ارتباط با کاربرد آمار در ژنتیک مولکولی است، البته در زیر شاخه تحلیل دادههای بیان ژنی به روش ریزآرایهها است. البته قرار بود یکم بیشتر براتون در این مورد توضیح بدم، اما تا الان زمان این اجازه و به من نداده، اما حتماً سعی میکنم توضیحات کامل و جامعی در این زمینه اینجا بنویسم. فعلاً این و بدونید که من میخوام تو زمینه کاربرد روشها خوشهبندی (Clustering) در این نوع دادهها و مطالعات کار کنم. به نظر خودم موضوع جالبی است، که البته در زمره رشته جدید بیوانفورماتیک (Bioinformatics) هم قرار داره. کلاً این رشته جدید همون کاربرد داده کاوی (Data Mining) است در تحلیل دادههای ژنتیکی که علت تو بورس بودن و داغ بودن این رشته به خاطر کاربرد فراوان و زیادش در درمان و تشخیص انواع سرطانها است که در حال حاظر به بزرگترین چالش دنیای پزشکی تبدیل شده است. بعد از ارائه سمینارم بازم بیشتر واستون میگم.
تو این پست چند تا کتاب در مورد آمارزیستی براتون می ذارم
Medical Statistics from A to Z Medical Statistics at a Glance Statistical Methods in Medical Research D'Agostino_Tutorials in Biostatistics 1-Statistical Methods in Clinical Studies D'Agostino_Tutorials in Biostatistics 2-Statistical Modeling of Complex Medical Data |