// נעם רוזנבוים ופרופ' יורם לוזון //
תקציר מנהלים
אחת השאלות החשובות במגפת הקורונה היא הסיבה להבדלים בין מדינות. הרבה טענות הועלו, אך מעט מהן נתמכות בנתונים. בפוסט הזה נתאר מודל המנסה לקשר בין מאפייני מדינה לבין התמותה מקורונה. חילקנו את המדינות בעולם לפי איפיון התמותה מקורונה ובדקנו אם יש קשר בין תבנית התמותה מקורונה באותה המדינה לבין מאפייני המדינה (צפיפות אוכלוסין, תוצר מקומי גולמי וכדומה) והפעולות בהן נקטה המדינה (האם הפעילה הסגר, אילו הנחיות הפעילה ועוד).
נאספו נתונים לגבי 118 מדינות:
- מספר המתים מקורונה בכל יום במשך 109 ימים.
- 27 מאפיינים של המדינות, כגון: צפיפות אוכלוסין, גיל חציוני ועוד.
בשלב הראשון המדינות חולקו לקבוצות שונות לפי תבנית התפשטות התמותה מקורונה בהן באמצעות אישכול (Clustering). בשלב השני סווגו המדינות, בדיוק של 90% על סט המבחן, לקבוצות השונות לפי המאפיינים שלהן. התוצאות המעניינות הן המאפיינים שמסבירים את ההבדלים בין המדינות.
התוצאות מפתיעות. המאפיין שהכי מנבא תמותה מקורונה הוא שיעור השמנת היתר במדינה והמאפיין הבא הוא מדד התרבות הפוליטית במדינה. המאפיין השלישי המנבא הוא תמותה ממחלות לב, שוב גורם קשור להשמנה. בדומה, תוחלת חיים ממוצעת היא מאפיין חשוב. מאפיין נוסף שחוזר הוא קו האורך של המדינה (Longitude). רוב המאפיינים שנידונים היום, כגון זמני סגר או גיל ממוצע, תורמים הרבה פחות. למרות שהתוצאות לא מכילות קשר סיבתי, ניתן להעלות את ההשערה שהמנגנונים הכי חשובים הם הבריאות הכללית של האוכלוסייה ולאו דווקא הפעולות הישירות שנוקטת המדינה למניעת המגיפה ולהגבלת התפשטותה.
נתונים
לטובת הניתוח השתמשנו בשני בסיסי נתונים:
- מאפייני המחלה — מידע לגבי חולים מאומתים ומתים מקורונה בכל מדינה החל מה- 31.12.2019 ועד ה- 20.8.2020:
- מספר החולים המאומתים שנמצאו באותו יום.
- מספר האנשים שמתו באותו יום מקורונה.
- מספר החולים בסך הכל עד אותו יום.
- מספר המתים בסך הכל עד אותו יום.
לכל מדינה, נקרא ליום בו היו 5 מתים בסך הכל כיום הראשון (t0) וכך למעשה יש לנו סדרת זמן (Time series) של חולי קורונה ומתים מקורונה עם אותם תנאי התחלה.
- מאפייני המדינות — 27 (תחילה 23 ו- 4 שנוספו בהמשך) מאפיינים (Features) של המדינות. המידע נלקח ממספר מקורות אותם ניתן למצוא בקישורים בתחתית הפוסט. 23 המאפיינים הראשונים הם:
מאפיין | פירוט |
Is lockdown | האם הופעל הסגר במדינה. ערכים אפשריים: 0, 1. |
Num days 5 deaths to lockdown | מספר הימים שעברו מ- t0 עד ליום הראשון להפעלת ההסגר. אם המדינה לא הפעילה הסגר כלל, מספר הימים שהכנסנו הינו 100. מאפיין זה יכול לקבל גם ערכים שליליים, במקרים בהם ההסגר הופעל לפני שתועדו 5 מתים במדינה. |
Literacy (%) | אחוז האנשים שיודעים לקרוא במדינה. |
Population | אוכלוסיית המדינה. |
Population density | צפיפות אוכלוסין. |
Median age | גיל חציוני. |
Aged 65 older | אחוז האנשים באוכלוסייה מעל גיל 65. |
GDP per capita | תמ"ג – תוצר מקומי גולמי לנפש. |
Hospital beds per thousands | כמות מיטות בבית חולים ל- 1000 איש. |
Latitude | קו רוחב. |
Longitude | קו אורך. |
Death by lack of hygiene | מספר האנשים שמתו כתוצאה מחוסר היגיינה ל- 100,000 איש במדינה בשנת 2016. |
Stringency index | מדד משוקלל לאומדן חומרת ההגבלות ופעולות ההתערבות בהן נקטה המדינה כתוצאה מהקורונה בכל יום (לדוגמא: הסגר, חובת עטיית מסכה, סגירת בתי ספר, סגירת גבולות וכדומה). ערכי המדד נעים בין 0 ל- 100 כאשר 0 משמעותו אין הגבלות כלל ו- 100 משמעותו ההגבלות המחמירות ביותר (הסגר מוחלט וכיו"ב). |
Cvd death rate | מוות כתוצאה ממחלות לב. |
Diabetes prevalence | שכיחות סוכרת באוכלוסייה. |
Life expectancy | תוחלת חיים. |
Democracy score | מדד דמוקרטיה. מדד בין 0 ל- 10 כאשר 10 היא דמוקרטיה מלאה ו- 0 היא דיקטטורה מלאה. |
Electoral process and pluralism | מדד דמוקרטיה, בודק את תהליך הבחירות במדינה. |
Functioning of government | מדד דמוקרטיה, בודק את התנהלות ותפקוד הממשלה. |
Political culture | מדד דמוקרטיה, מודד את אמון העם בממשל, הישמעות לחוקי והנחיות המדינה. |
Civil liberties | מדד דמוקרטיה, מודד את חופש הפרט וחופש הביטוי. |
Obesity rate | שיעור השמנת יתר. |
השוני בתבנית התמותה מקורונה בין המדינות השונות
ישנם הבדלים משמעותיים בנתוני התמותה מקורונה בין המדינות השונות. מכיוון שמספר החולים המאומתים במדינה מושפע, בין היתר, ממספר הבדיקות וממדיניות הבדיקות במדינה, התרכזנו במספר המתים. על מנת לאפשר השוואה בין המדינות השונות ניתחנו את מספר המתים המצטבר לנפש, קרי, סדרת זמן של מספר המתים המצטבר במדינה בחלוקה למספר הנפשות באותה המדינה. בנוסף, כדי להגביל את השונות, ניתחנו את לוג התמותה המצטברת לנפש. מהתרשים להלן ניתן לראות שיש הבדלים מהותיים בין המדינות השונות.

אישכול המדינות לפי תבנית התמותה מקורונה (Clustering)
על מנת לייצג את המדינות, הקשרים ביניהן ובהמשך לאשכל אותם, בנינו גרף מתמטי בו כל צומת (Node) היא מדינה ולכל קשת (Edge) בין 2 מדינות יש משקל (Weight) המתאר כמה דומות שתי המדינות מבחינת תבנית התפשטות התמותה מקורונה בהן. המרחק הוא פשוט הנורמה של הפרשי וקטורי התמותה מיום 17 (בימים הראשונים השונות רבה מדי). נקבל גרף בו כל נקודה מתארת מדינה והמשקל בין שתי נקודות הוא ביחס לדמיון ביניהן. הדמיון הוא יחסי לאחד חלקי המרחק. מדינות יותר קרובות הן בעלות תבנית תמותה יותר דומה. נשתמש ב- Louvain method לזיהוי קהילות בגרף, על מנת למצוא את הקבוצות השונות. לבסוף, נצבע כל מדינה לפי הקבוצה אליה היא משתייכת בגרף.

דרך נוספת להציג את הקבוצות שקיבלנו היא להציג גרף של לוג תמותה מצטברת על פני ציר הזמן ולצבוע כל מדינה בהתאם לקבוצה אליה היא שויכה:

גם כאן ניתן לראות שהאישכול יצר הפרדה טובה בין המדינות השונות, ככל שהכחול כהה יותר, קצב התפשטות התמותה לנפש מקורונה במדינה מהיר יותר.
עוד דרך להציג את האישכול היא צביעת מדינות העולם לפי הקבוצה אליה המדינה שוייכה:

תיוג
לאחר שמצאנו לכל מדינה את הקבוצה אליה היא שייכת מבחינת תבנית התמותה מקורונה, בנינו מודל למידת מכונה (Xgboost שמגיע לדיוק של 0.9 על סט מבחן על תיוג של שלוש קבוצות) לחיזוי הקבוצה אליה שייכת כל מדינה, על סמך מאפייני המדינה — האוכלוסייה, הממשל ופעולות ההתערבות שנעשו כנגד הקורונה במדינה. חילקנו את המדינות לסט אימון ולסט מבחן בחלוקה של (25%–75%) — כאשר המדינות ששימשו בסט המבחן נבחרו בצורה אקראית. על מנת לשפר את המודל, בחרנו את המאפיינים המאפשרים את החיזוי הטוב ביותר. השתמשנו בשיטת בחירה קדימה (Forward selection). בשיטה זו מתחילים ממודל ללא מאפיינים כלל, ובצורה איטרטיבית מוסיפים בכל פעם את המאפיין שתחזית המודל שעושה בו שימוש מביאה לדיוק הגבוה ביותר על סט המבחן. ברגע שכל המאפיינים שעוד לא נוספו למודל לא משפרים את התוצאות, סיימנו.
לאחר מימוש שיטה זו נבחרו ארבעה מאפיינים מובילים: תמ"ג (GDP per capita) , קו אורך Longitude)), שיעור השמנת יתר (Obesity rate), ותרבות פוליטית (Political culture).

ניתן לראות בתרשים שאחוז ההשמנה הוא המאפיין התורם ביותר בפער לעומת המאפיינים האחרים, בעוד ששאר שלושת המאפיינים תורמים בערך באותה המידה.
על מנת לראות כיצד כל מאפיין תורם לחיזוי, נשתמש בשיטה להורדת מימד: UMAP — Uniform Manifold Approximation and Projection for Dimension Reduction. שיטה זו מאפשרת להציג דאטה רב ממדי על גבי גרף דו- ממדי בהתאם לדמיון בין כל שתי דגימות (מדינות). כלומר ככל שתבנית התפשטות התמותה מקורונה בשתי מדינות דומה יותר, כך הן ייוצגו קרוב יותר על הגרף:

ניתן לראות שמדינות רבות בעלות התפשטות מהירה של מוות מקורונה הן גם מדינות עם תמ"ג גבוה. העובדה הזו מפתיעה מכיוון שההיגיון הפשוט אומר, ככל שהמדינה עשירה יותר היא יכולה לספק לאזרחיה משאבים חינוכיים ורפואיים שימנעו התפשטות של קורונה ויצילו חיי אדם, למשל על ידי מכונות הנשמה. הדבר הנסתר לעין הוא כי במדינות עשירות יש גם יותר תעבורה של בני אדם, שמעבירים את המחלה. למשל, מקומות רבים ביבשת אפריקה אינם מקושרים בצורה מיטבית לאנשים מחוץ למקום, וכך גם התפשטות הקורונה היא איטית יותר.
על מנת לבדוק את התיאוריה הזו הוספנו 4 מאפיינים נוספים:
- Total tourists — כמות כוללת של תיירים הנכנסים למדינה.
- Tourists per capita — כמות התיירים הנכנסים למדינה חלקי אוכלוסיית המדינה.
- Total air passengers — כמות האנשים הטסים לתוך המדינה, ובתוך המדינה.
- Air Passengers per capita — כמות האנשים הטסים לתוך המדינה ובתוך המדינה חלקי אוכלוסיית המדינה.
אם התיאוריה נכונה, הוספת המאפיינים האלו צריכה להחליף את המאפיין של התמ"ג בבחירת המאפיינים. ואכן, לאחר הרצה מחדש של Forward selection, נבחרו המאפיינים הבאים: Obesity rate, Electoral process and pluralism, Passengers per Capita.
התקבלו כמעט אותם מאפיינים כמו בשלב הקודם:
- אחוז ההשמנה נותר מהשלב הקודם.
- המאפיין Electoral process and pluralism הוא מדד לדמוקרטיה במדינה והינו דומה למאפיין Political culture שנבחר בשלב הקודם.
- ההערכה שלנו היא ש- Passengers per capita החליף את GDP per capita גם מכיוון שזו הייתה התיאוריה שגרמה להוספת המאפיין הזה לרשימת המאפיינים האפשריים לבחירה וגם מפני שקורלציית שני המאפיינים הללו היא גבוהה יחסית (0.8).
הגרף של ה- Feature importance עם המאפיינים החדשים:

כעת נבדוק כל מאפיין על ידי UMAP כמו שנעשה ל- GDP per capita בשלב הקודם:

הגרף מימין למעלה צבוע על פי שיעור השמנת יתר במדינות. לפי ה- Feature importance, שיעור השמנת היתר הוא המאפיין הטוב ביותר לחיזוי. עובדה זו בולטת גם בגרף שכן צביעת המדינות על ידי מאפיין זה יוצרת הפרדה ברורה בין האשכולות. דבר זה גם הגיוני, בעינינו, שכן השמנה היא חלק ממחלות הרקע המגבירות את הסיכוי של אדם הנדבק מקורונה למות ממנה. כלומר אדם בעל משקל מעל הממוצע הנדבק מקורונה — סביר יותר שימות מקורונה מאשר אדם בעל משקל תקין. הגרף משמאל למטה מתאר את מדד הדמוקרטיה (Electoral process and pluralism) הבודק את תהליך הבחירות במדינה והפלורליזם. מאפיין זה הוא אחד מהמדדים של הדמוקרטיה במדינה. במילים אחרות, המאפיין מודד עד כמה תהליך הבחירות במדינה הוא דמוקרטי ומייצג את העם, ואת הפלורליזם במדינה.
ב- UMAP של המאפיין Passengers per Capita (ימין למטה) ניתן לראות שככל שהמדינה בעלת קצב התפשטות מהיר יותר, כך כמות האנשים הטסים לתוך ובתוך המדינה גבוה יותר. כפי שידוע, הגורם המרכזי להדבקת המחלה, וכתוצאה מכך למוות מהמחלה, הוא התנועה של בני אדם ממקום למקום. ככל שאנשים נעים ליותר מקומות בפחות זמן, הם פוגשים יותר אנשים ומעבירים את המחלה מהר יותר. לכן מדינה בעלת תעבורה רבה, או במקרה של המאפיין הזה, מספר האנשים הטסים לתוך ובתוך המדינה, מהווה מדד כלשהו לתחלופת האנשים ולקצב ההדבקה ולבסוף, התמותה.
בשלושת הגרפים המוצגים ניתן לראות שינוי מדורג בצבע המדינות ככל שנעים מהמדינות בעלות קצב התפשטות המוות מקורונה האיטי למהיר. בנוסף ניתן לראות שכלל שהמאפיין דורג גבוה יותר בגרף ה- Feature importance כך גם ה- UMAP שלו מייצג חלוקה טובה יותר של המדינות לפי המאפיין. לאחר בחירת פרמטרים, הדיוק הסופי המתקבל הוא 0.9 על סט המבחן.
ניתוח יציבות — Stability analysis
על מנת לבדוק את יציבות המודל נבדוק את חשיבות המאפיינים (Feature importance) עבור 3, 4, ו- 6 אשכולות. אם סדר החשיבות של המאפיינים נותר זהה בכל המקרים, נדע שהמודל יציב. חשיבות המאפיינים (F-score בגרף) חושבה בשיטת ה- Gain. בשיטה זו חשיבות מאפיין נמדדת על ידי שיפור הדיוק בחיזוי לאחר הוספת המאפיין לעץ ההחלטה. כלומר מדד הפרופורציוני לכמות הפעמים שנעשתה חלוקה בעץ לפי מאפיין זה.

בשלושת הגרפים המאפיין בעל החשיבות הגבוהה ביותר הוא אחוז ההשמנה. חשוב לציין שחשיבותו של מאפיין זה נמצאת גם במקום הראשון בגרף Feature importance של שלושת המאפיינים שנבחרו למודל. בנוסף ניתן לראות ב- UMAP שלהשמנת יתר תרומה רבה בהפרדה בין מדינות עם תבנית התפשטות קורונה מהיר לנמוך. בנוסף, מעניין לציין שהמאפיין "is lockdown" נמצא במקום האחרון בתרשים ה- Feature importance בשלושת הגרפים הנ"ל. כלומר השאלה האם המדינה הפעילה או לא הפעילה הסגר אינה תורמת כלל ליכולת החיזוי של המודל. ישנם שינויים קלים בין המיקומים של חשיבותם של שאר המאפיינים בין שלושת הגרפים השונים הללו, אך המודל יציב.
מסקנות
אחת השאלות החשובות במגפה הנוכחית הוא הסיבה להבדלים בין מדינות. הבדלים אלו חשובים כדי להבין לאילו מדינות ניתן להשוות את עצמנו וכדי להבין מה משפיע על הדינמיקה של המחלה. הצענו פה שיטה פשוטה לאפיין את המקור להבדלים:
- לאפיין כל מדינה לפי נתוני התמותה המצטברים שלה.
- לאשכל את המדינות לאשכולות עם דינמיקה דומה.
- להשתמש בלמידת מכונה לחזות את השיוך לאשכולות ולאפיין את המאפיינים המנבאים.
התוצאות מפתיעות. המאפיין שהכי מנבא תמותה הוא שיעור השמנת היתר והמאפיין הבא הוא מדד לבחירות דמוקרטיות ופלורליזם. המאפיין השלישי המנבא הוא תמותה ממחלות לב, שוב גורם קשור להשמנה. בדומה, תוחלת חיים ממוצעת היא מאפיין חשוב. מאפיין נוסף שחוזר הוא קו האורך של המדינה. רוב המאפיינים שנידונים היום כגון זמני סגר או גיל ממוצע תורמים הרבה פחות. למרות שהתוצאות לא מכילות קשר סיבתי, ניתן להעלות את ההשערה שהמנגנונים הכי חשובים הם הבריאות הכללית של האוכלוסייה ולאו דווקא הפעולות הישירות למניעת המגיפה.
קישורים
- קישור ל- Github של הפרויקט עם הקוד והדאטה סטים ששימשו לניתוח:
https://github.com/Nohamika/Nohamika.github.io - קישור לדאטה סט של כמות המתים כל יום מקורונה במדינות העולם:
https://ourworldindata.org/coronavirus - קישורים למקורות הדאטה סט של מאפייני המדינות:
- מדד דמוקרטיה —
https://en.wikipedia.org/wiki/Democracy_Index - Passengers per Capita — https://www.citypopulation.de/en/world/bymap/AirTrafficPassengers.html
- סגר — https://en.wikipedia.org/wiki/National_responses_to_the_COVID-19_pandemic
- קו אורך וקו רוחב — https://developers.google.com/public-data/docs/canonical/countries_csv
- כל שאר המאפיינים נלקחו מ- https://ourworldindata.org
- מדד דמוקרטיה —
- כיוונון פרמטרים — https://www.kaggle.com/tilii7/hyperparameter-grid-search-with-xgboost
נעם רוזנבוים עוסקת במדעי הנתונים.
פרופ' יורם לוזון מתמחה באפידמיולוגיה ואימונולוגיה מתמטית, תהליכים סטוכסטיים ותורת הגרפים.
הפוסט מתפרסם כחלק מפעילות צוות מחקר ו- AI שפועל מטעם מפא"ת.
אתם חייבים להיות מחוברים על מנת לשלוח תגובה.