Если корреляция имеется – люди, которые съедают много пончиков, весят больше, – то на диаграмме появится облако точек, устремленное вверх от нижнего левого угла к верхнему правому. Эта линия и называется линейной регрессией. С ее помощью можно строить прогнозы. Понадобилось узнать, сколько будет весить человек, съедающий в месяц 14 пончиков? От отметки 14 на «пончиковой» оси проведите вертикальную линию вплоть до ее пересечения с диагональю предполагаемой зависимости. Прямая, проведенная из этой точки по горизонтали, упрется в отметку на «весовой» оси. Так вы узнаете вероятный вес едока.
По сути, именно так и работают программы статистической обработки данных при создании линейных регрессий. И хотя машина, строя точечную диаграмму, на миллиметровке линий не чертит – для этого у нее есть четкий набор математических команд, – программы действуют по тому принципу, который я только что описал.
Гораздо интереснее учитывать не один, а несколько факторов, влияющих на результат. Предсказать вес едока можно точнее, приняв во внимание его пол – ведь мужчина обычно тяжелее женщины. Для этого нужно построить диаграмму рассеяния в трех плоскостях, что на бумаге сделать непросто. А вот для статистических программ это нетрудно.
Главным методом обработки большого массива данных служат так называемые множественные регрессии. Потребитель x пола, купивший y и имеющий почтовый индекс z, склонен покупать a, выбирать b и голосовать за c. По такой модели можно, например, оценить значимость каждого конкретного фактора при составлении прогноза. Когда факторов много, некоторые зачастую оказываются лишними. Если в модели есть почтовый индекс, то нет необходимости указывать населенный пункт (почтовый индекс содержит информацию о штате и указывает на место жительства более точно). Программа это принимает в расчет.
Надбавка за знания: у тех, кто выполнил тест на общую эрудицию без ошибок, доход оказался в два с лишним раза больше
Почему почтовый индекс сообщает больше информации, чем указание на населенный пункт, мы понимаем. Однако перекрывание одного фактора другим обычно не так просто увидеть и не так легко объяснить. Множество разнообразных факторов иногда говорит об одном и том же, но при этом каждый будет, возможно, нести какую-то уникальную информацию. В этом случае модель строит прогноз благодаря учету множества факторов.
Поскольку связь между годами, проведенными в стенах учебных заведений, и размером дохода считается общепризнанной и – как нам кажется – в полной мере понятной, целесообразно включать ее в любую модель, прогнозирующую уровень дохода. Что я и сделал применительно к модели, построенной по результатам моего теста из 10 вопросов на общую эрудицию. Результаты теста остались релевантными – статистически значимыми для прогнозирования дохода – даже после того, как я включил в модель фактор уровня образования. Это значит, что знание фактов не является просто суррогатом уровня образования.
Возраст – другой релевантный фактор. Люди среднего возраста, как правило, зарабатывают больше, чем люди помоложе, – также у них за плечами больше лет, в течение которых они знакомились с фактами. Здесь легко можно усмотреть зависимость дохода от знаний; на самом же деле может оказаться, что доход больше у тех, кто выше поднялся по служебной лестнице.
В итоге при построении регрессии я учел факторы возраста, образования, а также результаты теста. Знание по-прежнему оказалось весьма существенным индикатором дохода. Даже при тождестве возрастных и образовательных показателей больше зарабатывают те, у кого кругозор шире.
Разница в доходах тех, кто знает больше, и тех, кто знает меньше, оказывается впечатляющей. Для наглядности рассмотрим гипотетический случай, в котором за образец возьмем 35-летнего человека, проучившегося четыре года в колледже. Статистическая модель позволяет предположить, что, если этот человек не может ответить ни на один вопрос из теста на общую эрудицию, его семейный доход в среднем составляет 40360 долларов в год. Другой человек того же возраста и уровня образования, ответивший верно на все 10 вопросов, имеет годовой доход в 94959 долларов. А ведь это больше почти на 55 тысяч, или, если хотите, в 2,35 раза.
Необходимо объяснить, что нулевого результата на самом деле ни у кого не было – вопросы я подобрал довольно простые – и лишь несколько испытуемых набрали 100 %. Но среди этой группы не оказалось тех, кому ровно 35 или кто учился в колледже ровно четыре года. Программа статистической обработки данных учитывает каждую единицу набора данных и рассчитывает зависимость дохода от этих трех факторов. Благодаря этому она может дать прогноз – графически отображенный в виде прямой линии – наиболее вероятного уровня доходов с учетом любого количества заданных факторов.
В таком случае получается, что уровни дохода сильно отличаются из-за разницы в знаниях, но никак не в образовании или возрасте. Это различие в доходах заслуживает внимания еще и потому, что речь о доходе семейном, а человек, отвечающий на вопросы теста, не обязательно является главным кормильцем в семье. Такое соображение должно было бы ослабить зависимость дохода от знаний, однако связь эта все-таки значимая и хорошо просматривается.
Нам известно, что уровень дохода и знание фактов общего характера взаимосвязаны, но (как мы убедились в случае с победительницами «Мисс Америка» и числом смертей от «раскаленных предметов») корреляционная связь не равняется причинно-следственной. Варианта здесь три: