Почему google flu trends не справился с предсказанием эпидемии гриппа?

Почему провалился проект гугл не справился с предсказанием эпидемии гриппа?Поисковые запросы говорят очень много о людях, их желаниях, планах, проблемах. Эти запросы отражают то, что реально происходит в жизни человека, а аналитики используют эту информацию для отслеживания заболеваний, прогнозирования ростов продаж новых продуктов, и даже предсказывания результатов выборов.

В 2008 году исследователи из Google, обнаружив такую возможность, заявили, что они могут прогнозировать вспышки гриппа на основе поисковых запросов. Основная гипотеза была в том, что люди, когда заболевают гриппом, начинают искать информацию о нем — описания лекарств, способы лечения и. т. д, таким образом сообщая Google о своей болезни. Разработчики утверждали, что данные поиска, наложенные на информацию о гриппе из Центра по контролю и профилактике заболеваний США, позволяют им производить точные оценки распространенности гриппа на две недели раньше, чем это делают медики на основе статистических данных о заболевших.

Заявления были красивые, но проект Google Flu Trends (GFT) провалился. Причем провалился с треском, просто пропустив эпидемию 2013 года и выдав по ней информацию, искаженную на 140 %. И тогда Google тихо закрыл проект. Но неудача конкретного начинания не означает провал использования данных такого масштаба в принципе. Стоит внимательнее отнестись к ошибкам и все-таки использовать массивы данных, получаемые такими гигантами, как Google. Ценность этих данных огромна, если их использовать правильно. Это означает, что корпоративные гиганты, обладающие этими данными, несут ответственность за их использование в интересах общества.

В статье, опубликованной в 2014 году в журнале Sience, ученые подробно разобрали провал Google в истории с прогнозированием распространенности гриппа. Команда исследователей из Северо-Восточного университета, Университета Хьюстона, и Гарвардского университета сравнила логику работы GFT с очень простой моделью на основе данных Центра по контролю заболеваний, и обнаружили недостатки GFT. Более того, они выяснили, почему первые два-три года GFT работала хорошо, а затем провалилась.

Целью работы было реабилитировать ценность работы с большими массивами данных и продемонстрировать возможности моделирования распространения заболеваний, обнаружения в режиме реального времени чрезвычайных ситуаций, и выявление макроэкономических изменений раньше, чем это позволяют делать традиционные методы. Разработки Google, хоть и были продиктованы благими намерениями, были удивительно непрозрачны с точки зрения методов обработки данных, и полагаться на них для принятия решений было просто опасно.

Почему провалился проект гугл не справился с предсказанием эпидемии гриппа?

Например, алгоритм Google был весьма уязвим к сезонным всплескам запросов, не связанных с гриппом, таким как «школьная секция баскетбола.» Наряду с миллионами поисковых запросов, подходящих под данные Центра по контролю заболеваний, были и запросы, которые коррелировали с этими данными по чистой случайности и не могли быть использованы для предсказания будущих тенденций. Google также не стал принимать во внимание изменение поискового поведения с течением времени. После введения GFT, Google предложил новую технологию поиска с использованием подсказок, а также ряд других нововведений для более эффективного поиска. Это помогло людям легче находить желаемое, но, в то же время, сделало некоторые термины более распространенными, исказив чистоты данных, используемых для GFT.
На самом деле, вопрос использования больших массивов данных для общественного блага является намного более глобальным, а Google — просто частный пример.

Конечная задача состоит в том, чтобы найти способ строить модели сотрудничества среди представителей промышленности, правительства, ученых и общественных деятелей, и использовать большие массивы данных для общественного блага.

Источник: https://www.medkrug.ru/article/show/pochemu_Google_Flu_Trends_ne_spravilsja_s_predskazaniem_jepidemii_grippa

Комментировать