Найдите показатель p зная что
Как правильно рассчитать рН растворов сильных и слабых электролитов
Задача 40.
Вычислите рН 0,025 М раствора КОН.
Решение:
КОН – сильный электролит, который диссциирует по схеме: КОН = К + + ОН – ;
[ОН – ] = СМ(КОН) = 0,025 моль/дм 3 ;
pH = 14 – pOH = 14 – 1,4 = 12,6.
Ответ: рН = 12,6.
рН = –lg[H + ] = –lg2,05 · 10 –3 = 3 – lg2,605 = 2,7.
Ответ: [H+] = 2,05 · 10 –3 моль/л; рН = 2,7.
рН = –lg[H + ] = –lg1,7 · 10 –11 = 11 – lg1,7 = 10,77.
Ответ: [H + ] = 1,7 · 10 –11 моль/дм 3 ; рН = 10,77.
Рассчитаем нормальность веществ в полученном растворе смеси, получим:
Для буферных растворов, образованных слабой кислотой и солью этой кислоты, [Н+] находят по формуле:
[H+] = Кк . (Ск/Cc);
рН = –lg[H + ]; pH = –lg7,12 · 10 –5 = 5 – lg7,12 = 4,15.
Ответ: [H + ] = 7,12 · 10 –5 моль/дм 3 ; рН = 4,15.
Задача 44.
Вычислите и сравните рН растворов: а) 0,1 М HCl и 0,1 М CH3COOH; б) растворов, содержащих 7 г/дм 3 HCl и 7 г/дм 3 CH3COOH.
Решение:
а) Расчет рН растворов: 0,1 М HCl, 0,1 М CH3COOH
1. рассчитаем рН раствора 0,1 М HCl
рН = –lg[H + ]; pH = –lg1 · 10 –1 = 1 – lg1 = 1.
2. рассчитаем рН раствора 0,1 М CH3COOH
CH3COOH (Кк = 1,78 · 10 –5 ) – слабая кислота. Для слабых кислот [H + ] вычисляется по формуле:
рН = –lg[H + ] = –lg1,33 · 10 –3 = 3 – lg1,33 = 2,88.
б) Расчет рН растворов, содержащих 7 г/дм 3 HCl и 7 г/дм 3 CH3COOH
1. Рассчитаем рН раствора HCl
Определим концентрацию HCl, получим:
СМ(HCl) = m(HCl)/M(HCl) = 7/36,5 = 0,19 = 1,9 · 10 –1
рН = –lg[H + ]; pH = –lg1,9 · 10 –1 = 1 – lg1,9 = 0,72.
2. Рассчитаем рН раствора CH3COOH
Определим концентрацию CH3COOH, получим:
CH3COOH – слабая кислота. Для слабых кислот [H + ] вычисляется по формуле:
рН = –lg[H + ]; pH = –lg1,44 · 10 –3 = 3 – lg1,44 = 2,85.
Ответ: а) 1 и 2,88; б) 0,72 и 2,85.
Коэффициент P/B простыми словами.
Коэффициент P/B показывает отношение рыночной капитализации компании (Price) к ее балансовой стоимости активов (Book Value Ratio). Иногда обозначают как P / BV.
Price — сколько стоит компания на данный момент на рынке. Или рыночная стоимость одной акции х на количество бумаг.
Балансовая стоимость — термин из бухгалтерского учета. Оценка имущества компании за минусом всех ее обязательств.
Если простыми словами, сколько денег можно выручить за компанию, если продать все ее имущество (от зданий, оборудования до дверных ручек, столов, стульев и табуретов, золотых унитазов топ-менеджеров и рабов). Снять все средства с резервов и нераспределенной прибыли. С полученных денег закрыть все долги (рассчитаться с кредиторами, выплатить зарплаты, заплатить все налоги). А то что останется (если останется) и будет считаться балансовой стоимостью.
Коэффициент P/B показывает на какую сумму инвестор получает имущества компании на каждый вложенный им доллар.
P/B = 5 показывает, что на каждый вложенный рубль, инвестор получает только на 20 копеек (пятую часть) активов компании.
Закрепляем на примерах
Имеется тачка-развалюшка. На рынке за нее дают 50К.
Если продать по запчастям по отдельности, то можно выручить с этого 100 тысяч.
Показатели такого не хитрого бизнеса будут следующие:
Рыночная цена: P = 50 000 рублей.
Балансовая стоимость: B =100 000 рублей.
Получаем коэффициент P/B= 0,5.
Есть нежилое помещение на первом этаже. Стоимостью 100 тысяч долларов. Много квадратов. Место козырное. Удачно расположенное. Проходимость хорошая.
Сдал его под магазин какой-нибудь Пятерочке. На срок лет так 10-20.
Купил бы себе такой бизнес?
По такой цене — однозначно да!
Но владелец не дурак, «продавать курицу, несущую золотые яйца». И хочет за него не 100 тысяч (B — балансовая стоимость), а 150 (P — цена или рыночная стоимость).
При таких условиях коэффициент P/B будет равным 1,5. И доходность снизится до 13,3% в год.
Но учитывая, что если Пятерочка съедет, найдутся толпы желающих арендаторов занять ее место.
Почему бы не вложиться в этот бизнес?
У владельца недвижимости все хорошо. Дела идут. Деньги капают. Он думает о расширении.
Присмотрел еще один объект. Но свободных денег нет. Идет в банк. И берет ипотеку под залог первого помещения. Банк дает ему сотку в кредит. Недвижимость снова сдается в аренду. За двадцатку в год.
Но аппетит приходит во время еды. Снова ипотека, снова на 100 тысяч и 3-е помещение.
И вам снова предлагают войти в долю.
Доходность вся та же — 20%.
Товарищ просит за все про все как обычно в 1,5 раза больше или 450 тысяч. Получается те же самые 13,3% доходности.
Только P/B при таком раскладе будет уже не 1,5, а … сколько?
В полной собственности только один объект — за 100 тысяч. Остальные пока принадлежат банку.
В итоге получаем 450 (price — рыночная цена) / 100 (балансовая стоимость) = 4,5.
P/B = 4,5 или за каждый 1 рубль имущества придется выложить 4,5 рубля.
IT, технологии, фармацевтика, патенты, лицензии и бренды
Как вы считаете — коэффициент P/B > 5 это много? А больше 10, 20, 30?
Да кто отдаст за акции компании в 10 раз больше, чем она стоит по балансу?
Проблема мультипликатора P/B в том, что начали использовать его в основном для оценки промышленных капиталоемких предприятий. То, что имеет физическое имущество. Заводы, станки, паровозы-пароходы, буровые вышки, трубопроводы.
В наш век технического прогресса, когда космические корабли бороздят просторы большого театра….
Как измерить на бумаге стоимость технологии, патента или бренда?
Есть патент на Виагру (принадлежит Pfizer), лейкопластырь (Джонсон и Джонсон). Возьмите «обычный» бренд Coca-Cola (выпускает 5 из 6 самых популярных напитков в мире), Apple, Microsoft. Люди готовы платить за бренд выше, чем стоит аналогичный неизвестный продукт.
Например, несколько лет назад, Disney потратил на покупку Marvel 4 миллиарда долларов. Примерно столько же стоили Star Wars. Это только права. Нематериальный актив.
А если найти недооцененные компании, с показателем цена / балансовая стоимость меньше 1?
Пионер фундаментального анализа Бенджамин Грэхем (самым известным его учеником был Баффет) обращал на это особое внимание. Искал недооцененные по P/BV компании. Но много лет назад такие данные были недоступны широкому кругу лиц. Было много возможностей для получения инсайдерской информации. И Грэхэм этим пользовался.
Сейчас, благодаря интернету, все находятся в равных условиях. И информация распространяется мгновенно. И вроде-бы как-бы найти что-то интересное уже практически невозможно.
Как использовать мультипликатор
Оценивать компанию только по одному коэффициенту цена / балансовая стоимость неправильно.
Нам нужно знать какая у компания чистая прибыль коэффициент P/E, растет она или падает с годами. Рентабельность капитала. И много других показателей или страшных слов.
Компания «Завороток кишок» имеет низкий P/B. Но с каждым годом расходы растут. А доходы снижаются. Для поддержания бизнеса на плаву, постоянную берутся кредиты. Короче бизнес дышит на ладан. Но шатко-валко продолжает работать.
Хотите вложиться?
P/B — огонь! Всего 0,5.
Только в совокупности, на основе анализа различных финансовых коэффициентов, выявляются перспективные компании.
Сам Мультипликатор P/B показывает не слишком ли много денег просят за акции компании.
Сравнивать показатели обязательно нужно в разрезе одной страны. И одной отрасли.
Например, если взять 2 нефтяные компании с приблизительно одинаковыми мультипликаторами (прибыли, рентабельности и др.).
У первой P/B будет 1,5, а у второй 4. То лучше выбрать компанию, с меньшим значением мультипликатора.
Объясняем p-значения для начинающих Data Scientist’ов
Я помню, когда я проходил свою первую зарубежную стажировку в CERN в качестве практиканта, большинство людей все еще говорили об открытии бозона Хиггса после подтверждения того, что он соответствует порогу «пять сигм» (что означает наличие p-значения 0,0000003).
Тогда я ничего не знал о p-значении, проверке гипотез или даже статистической значимости.
Я решил загуглить слово — «p-значение», и то, что я нашел в Википедии, заставило меня еще больше запутаться…
При проверке статистических гипотез p-значение или значение вероятности для данной статистической модели — это вероятность того, что при истинности нулевой гипотезы статистическая сводка (например, абсолютное значение выборочной средней разницы между двумя сравниваемыми группами) будет больше или равна фактическим наблюдаемым результатам.
— Wikipedia
Хорошая работа, Википедия.
Ладно. Я не понял, что на самом деле означает р-значение.
Углубившись в область науки о данных, я наконец начал понимать смысл p-значения и то, где его можно использовать как часть инструментов принятия решений в определенных экспериментах.
Поэтому я решил объяснить р-значение в этой статье, а также то, как его можно использовать при проверке гипотез, чтобы дать вам лучшее и интуитивное понимание р-значений.
Также мы не можем пропустить фундаментальное понимание других концепций и определение p-значения, я обещаю, что сделаю это объяснение интуитивно понятным, не подвергая вас всеми техническими терминами, с которыми я столкнулся.
Всего в этой статье четыре раздела, чтобы дать вам полную картину от построения проверки гипотезы до понимания р-значения и использования его в процессе принятия решений. Я настоятельно рекомендую вам пройтись по всем из них, чтобы получить подробное понимание р-значений:
1. Проверка гипотез
Прежде чем мы поговорим о том, что означает р-значение, давайте начнем с разбора проверки гипотез, где р-значение используется для определения статистической значимости наших результатов.
Наша конечная цель — определить статистическую значимость наших результатов.
И статистическая значимость построена на этих 3 простых идеях:
Другими словами, мы создадим утверждение (нулевая гипотеза) и используем пример данных, чтобы проверить, является ли утверждение действительным. Если утверждение не соответствует действительности, мы выберем альтернативную гипотезу. Все очень просто.
Чтобы узнать, является ли утверждение обоснованным или нет, мы будем использовать p-значение для взвешивания силы доказательств, чтобы увидеть, является ли оно статистически значимым. Если доказательства подтверждают альтернативную гипотезу, то мы отвергнем нулевую гипотезу и примем альтернативную гипотезу. Это будет объяснено в следующем разделе.
Давайте воспользуемся примером, чтобы сделать эту концепцию более ясной, и этот пример будет использоваться на протяжении всей этой статьи для других концепций.
Пример. Предположим, что в пиццерии заявлено, что время их доставки составляет в среднем 30 минут или меньше, но вы думаете, что оно больше чем заявленное. Таким образом, вы проводите проверку гипотезы и случайным образом выбираете время доставки для проверки утверждения:
Одним из распространенных способов проверки гипотез является использование Z-критерия. Здесь мы не будем вдаваться в подробности, так как хотим лучше понять, что происходит на поверхности, прежде чем погрузиться глубже.
2. Нормальное распределение
Нормальное распределение — это функция плотности вероятности, используемая для просмотра распределения данных.
Нормальное распределение имеет два параметра — среднее (μ) и стандартное отклонение, также называемое сигма (σ).
Среднее — это центральная тенденция распределения. Оно определяет местоположение пика для нормальных распределений. Стандартное отклонение — это мера изменчивости. Оно определяет, насколько далеко от среднего значения склонны падать значения.
Нормальное распределение обычно связано с правилом 68-95-99.7 (изображение выше).
Классно. Теперь вы можете задаться вопросом: «Как нормальное распределение относится к нашей предыдущей проверке гипотез?»
Поскольку мы использовали Z-тест для проверки нашей гипотезы, нам нужно вычислить Z-баллы (которые будут использоваться в нашей тестовой статистике), которые представляют собой число стандартных отклонений от среднего значения точки данных. В нашем случае каждая точка данных — это время доставки пиццы, которое мы получили.
Обратите внимание, что когда мы рассчитали все Z-баллы для каждого времени доставки пиццы и построили стандартную кривую нормального распределения, как показано ниже, единица измерения на оси X изменится с минут на единицу стандартного отклонения, так как мы стандартизировали переменную, вычитая среднее и деля его на стандартное отклонение (см. формулу выше).
Изучение стандартной кривой нормального распределения полезно, потому что мы можем сравнить результаты теста с ”нормальной» популяцией со стандартизированной единицей в стандартном отклонении, особенно когда у нас есть переменная, которая поставляется с различными единицами.
Z-оценка может сказать нам, где лежат общие данные по сравнению со средней популяцией.
Мне нравится, как Уилл Кёрсен выразился: чем выше или ниже Z-показатель, тем менее вероятным будет случайный результат и тем более вероятным будет значимый результат.
Но насколько высокий (или низкий) показатель считается достаточно убедительным, чтобы количественно оценить, насколько значимы наши результаты?
Кульминация
Здесь нам нужен последний элемент для решения головоломки — p-значение, и проверить, являются ли наши результаты статистически значимыми на основе уровня значимости (также известного как альфа), который мы установили перед началом нашего эксперимента.
3. Что такое P-значение?
Наконец… Здесь мы говорим о р-значении!
Все предыдущие объяснения предназначены для того, чтобы подготовить почву и привести нас к этому P-значению. Нам нужен предыдущий контекст и шаги, чтобы понять это таинственное (на самом деле не столь таинственное) р-значение и то, как оно может привести к нашим решениям для проверки гипотезы.
Если вы зашли так далеко, продолжайте читать. Потому что этот раздел — самая захватывающая часть из всех!
Вместо того чтобы объяснять p-значения, используя определение, данное Википедией (извини Википедия), давайте объясним это в нашем контексте — время доставки пиццы!
Напомним, что мы произвольно отобрали некоторые сроки доставки пиццы, и цель состоит в том, чтобы проверить, превышает ли время доставки 30 минут. Если окончательные доказательства подтверждают утверждение пиццерии (среднее время доставки составляет 30 минут или меньше), то мы не будем отвергать нулевую гипотезу. В противном случае мы опровергаем нулевую гипотезу.
Поэтому задача p-значения — ответить на этот вопрос:
Если я живу в мире, где время доставки пиццы составляет 30 минут или меньше (нулевая гипотеза верна), насколько неожиданными являются мои доказательства в реальной жизни?
Р-значение отвечает на этот вопрос числом — вероятностью.
Чем ниже значение p, тем более неожиданными являются доказательства, тем более нелепой выглядит наша нулевая гипотеза.
И что мы делаем, когда чувствуем себя нелепо с нашей нулевой гипотезой? Мы отвергаем ее и выбираем нашу альтернативную гипотезу.
Если р-значение ниже заданного уровня значимости (люди называют его альфа, я называю это порогом нелепости — не спрашивайте, почему, мне просто легче понять), тогда мы отвергаем нулевую гипотезу.
Теперь мы понимаем, что означает p-значение. Давайте применим это в нашем случае.
P-значение в расчете времени доставки пиццы
Теперь, когда мы собрали несколько выборочных данных о времени доставки, мы выполнили расчет и обнаружили, что среднее время доставки больше на 10 минут с p-значением 0,03.
Это означает, что в мире, где время доставки пиццы составляет 30 минут или меньше (нулевая гипотеза верна), есть 3% шанс, что мы увидим, что среднее время доставки, по крайней мере, на 10 минут больше, из-за случайного шума.
Чем меньше p-значение, тем более значимым будет результат, потому что он с меньшей вероятностью будет вызван шумом.
В нашем случае большинство людей неправильно понимают р-значение:
Р-значение 0,03 означает, что есть 3% (вероятность в процентах), что результат обусловлен случайностью — что не соответствует действительности.
Р-значение ничего не *доказывает*. Это просто способ использовать неожиданность в качестве основы для принятия разумного решения.
— Кэсси Козырков
Вот как мы можем использовать p-значение 0,03, чтобы помочь нам принять разумное решение (ВАЖНО):
По моему мнению, p-значения используются в качестве инструмента для оспаривания нашего первоначального убеждения (нулевая гипотеза), когда результат является статистически значимым. В тот момент, когда мы чувствуем себя нелепо с нашим собственным убеждением (при условии, что р-значение показывает, что результат статистически значим), мы отбрасываем наше первоначальное убеждение (отвергаем нулевую гипотезу) и принимаем разумное решение.
4. Статистическая значимость
Наконец, это последний этап, когда мы собираем все вместе и проверяем, является ли результат статистически значимым.
Недостаточно иметь только р-значение, нам нужно установить порог (уровень значимости — альфа). Альфа всегда должна быть установлена перед экспериментом, чтобы избежать смещения. Если наблюдаемое р-значение ниже, чем альфа, то мы заключаем, что результат является статистически значимым.
Основное правило — установить альфа равным 0,05 или 0,01 (опять же, значение зависит от вашей задачи).
Как упоминалось ранее, предположим, что мы установили альфа равным 0,05, прежде чем мы начали эксперимент, полученный результат является статистически значимым, поскольку р-значение 0,03 ниже, чем альфа.
Для справки ниже приведены основные этапы всего эксперимента:
Если вы хотите узнать больше о статистической значимости, не стесняйтесь посмотреть эту статью — Объяснение статистической значимости, написанная Уиллом Керсеном.
Последующие размышления
Здесь много чего нужно переваривать, не так ли?
Я не могу отрицать, что p-значения по своей сути сбивают с толку многих людей, и мне потребовалось довольно много времени, чтобы по-настоящему понять и оценить значение p-значений и то, как они могут быть применены в рамках нашего процесса принятия решений в качестве специалистов по данным.
Но не слишком полагайтесь на p-значения, поскольку они помогают только в небольшой части всего процесса принятия решений.
Я надеюсь, что мое объяснение p-значений стало интуитивно понятным и полезным в вашем понимании того, что в действительности означают p-значения и как их можно использовать при проверке ваших гипотез.
Сам по себе расчет р-значений прост. Трудная часть возникает, когда мы хотим интерпретировать p-значения в проверке гипотез. Надеюсь, что теперь трудная часть станет для вас немного легче.
Если вы хотите узнать больше о статистике, я настоятельно рекомендую вам прочитать эту книгу (которую я сейчас читаю!) — Практическая статистика для специалистов по данным, специально написанная для data scientists, чтобы разобраться с фундаментальными концепциями статистики.
Узнайте подробности, как получить востребованную профессию с нуля или Level Up по навыкам и зарплате, пройдя платные онлайн-курсы SkillFactory:
Найдите показатель p зная что
СОЕДИНЕНИЯ И БИНОМ НЬЮТОНА
709. Найти коэффициент при x 8 в разложении
710.. Найти коэффициент при х m в разложении по степеням х выражения
711.. В разложении биномиальный коэффициент третьего члена на 44 больше коэффициента второго члена. Найти член, не содержащий х. Решение
712. Найти слагаемое в разложении не содержащее х. Решение
713..При каком значении k член Tk+1 разложения по формуле бинома Ньютона
будет одновременно больше предыдущего и больше последующего членов этого разложения? Решение
714..Найти условие, при котором разложение (l + a) n (п — целое положительное число) по степеням а =/= 0 содержит два равных последовательных слагаемых. Могут ли в разложении содержаться три равных последовательных слагаемых? Решение
715..Найти число различных не подобных между собой членов разложения
получающихся после возведения в степень. Решение
717..Показать, что если каждый коэффициент в разложении x (l + x) n разделить на показатель степени х, при которой этот коэффициент стоит, то сумма полученных частных будет равна
718..Доказать, что при целом п > 0
719. Каким числом способов можно разделить колоду из 36 карт пополам так, чтобы в первой и во второй пачке было по 2 туза? Решение
720.. Сколько можно составить телефонных номеров из пяти цифр так, чтобы в каждом отдельно взятом номере все цифры были различны? Решение
721..Даны 2n элементов. Рассматриваются всевозможные разбиения их на пары, причем разбиения, отличающиеся только порядком элементов внутри пар и порядком расположения пар, считаются совпадающими. Сколько существует таких различных разбиений? Решение
722.. Сколько можно сделать из п элементов перестановок, в которых два элемента а и b не стоят рядом? Решение
723..В вещевой лотерее разыгрывается 8 предметов. Первый подошедший к урне вынимает из нее 5 билетов. Каким числом способов он может их вынуть, чтобы: 1) ровно два из них оказались выигрышными; 2) по крайней мере, два из них оказались выигрышными. Всего в урне 50 билетов. Решение
724..На одной из двух параллельных прямых выбрано т точек, на другой — п точек. Каждая из т точек на первой прямой соединена прямой линией с каждой из п точек на второй прямой. Найти, сколько раз пересекаются все отрезки, соединяющие точки, если известно, что нет ни одной точки, в которой пересекались бы три и более отрезков одновременно. Решение
725.. п параллельных прямых плоскости пересекаются cерией из т параллельных прямых. Сколько параллелограммов можно выделить в образовавшейся сетке? Решение
726..Некоторый алфавит состоит из шести букв, которые для передачи по телеграфу кодированы так:
При передаче одного слова не сделали промежутков, отделяющих букву от буквы, так что получилась сплошная цепочка точек и тире, содержащая 12 знаков. Сколькими способами можно прочитать переданное слово? Решение
Что такое p-value?
P-значение (англ. P-value) — величина, используемая при тестировании статистических гипотез. Фактически это вероятность ошибки при отклонении нулевой гипотезы (ошибки первого рода). Проверка гипотез с помощью P-значения является альтернативой классической процедуре проверки через критическое значение распределения.
Обычно P-значение равно вероятности того, что случайная величина с данным распределением (распределением тестовой статистики при нулевой гипотезе) примет значение, не меньшее, чем фактическое значение тестовой статистики. Википедия.
Иначе говоря, p-значение – это наименьшее значение уровня значимости (т.е. вероятности отказа от справедливой гипотезы), для которого вычисленная проверочная статистика ведет к отказу от нулевой гипотезы. Обычно p-значение сравнивают с общепринятыми стандартными уровнями значимости 0,005 или 0,01.
Например, если вычисленное по выборке значение проверочной статистики соответствует p = 0,005, это указывает на вероятность справедливости гипотезы 0,5%. Таким образом, чем p-значение меньше, тем лучше, поскольку при этом увеличивается «сила» отклонения нулевой гипотезы и увеличивается ожидаемая значимость результата.
Интересное объяснение этого есть на Хабре.
Статистический анализ начинает напоминать черный ящик: на вход подаются данные, на выход — таблица основных результатов и значение p-уровня значимости (p-value).
О чём говорит p-value?
Предположим, мы решили выяснить, существует ли взаимосвязь между пристрастием к кровавым компьютерным играм и агрессивностью в реальной жизни. Для этого были случайным образом сформированы две группы школьников по 100 человек в каждой (1 группа — фанаты стрелялок, вторая группа — не играющие в компьютерные игры). В качестве показателя агрессивности выступает, например, число драк со сверстниками. В нашем воображаемом исследовании оказалось, что группа школьников-игроманов действительно заметно чаще конфликтует с товарищами. Но как нам выяснить, насколько статистически достоверны полученные различия? Может быть, мы получили наблюдаемую разницу совершенно случайно? Для ответа на эти вопросы и используется значение p-уровня значимости (p-value) — это вероятность получить такие или более выраженные различия при условии, что в генеральной совокупности никаких различий на самом деле нет. Иными словами, это вероятность получить такие или еще более сильные различия между нашими группами, при условии, что, на самом деле, компьютерные игры никак не влияют на агрессивность. Звучит не так уж и сложно. Однако, именно этот статистический показатель очень часто интерпретируется неправильно.
Примеры про p-value
Итак, мы сравнили две группы школьников между собой по уровню агрессивности при помощи стандартного t-теста (или непараметрического критерия Хи — квадрат более уместного в данной ситуации) и получили, что заветный p-уровень значимости меньше 0.05 (например 0.04). Но о чем в действительности говорит нам полученное значение p-уровня значимости? Итак, если p-value — это вероятность получить такие или более выраженные различия при условии, что в генеральной совокупности никаких различий на самом деле нет, то какое, на ваш взгляд, верное утверждение:
1.Компьютерные игры — причина агрессивного поведения с вероятностью 96%.
2. Вероятность того, что агрессивность и компьютерные игры не связаны, равна 0.04.
3. Если бы мы получили p-уровень значимости больше, чем 0.05, это означало бы, что агрессивность и компьютерные игры никак не связаны между собой.
4. Вероятность случайно получить такие различия равняется 0.04.
5. Все утверждения неверны.
Если вы выбрали пятый вариант, то абсолютно правы! Но, как показывают многочисленные исследования, даже люди со значительным опытом в анализе данных часто некорректно интерпретируют значение p-value.
Давайте разберём все ответы по порядку:
Первое утверждение — пример ошибки корреляции: факт значимой взаимосвязи двух переменных ничего не говорит нам о причинах и следствиях. Может быть, это более агрессивные люди предпочитают проводить время за компьютерными играми, а вовсе не компьютерные игры делают людей агрессивнее.
Это уже более интересное утверждение. Всё дело в том, что мы изначально принимаем за данное, что никаких различий на самом деле нет. И, держа это в уме как факт, рассчитываем значение p-value. Поэтому правильная интерпретация: «Если предположить, что агрессивность и компьютерные игры никак не связаны, то вероятность получить такие или еще более выраженные различия составила 0.04».
А что делать, если мы получили незначимые различия? Значит ли это, что никакой связи между исследуемыми переменными нет? Нет, это означает лишь то, что различия, может быть, и есть, но наши результаты не позволили их обнаружить.
Это напрямую связано с самим определением p-value. 0.04 — это вероятность получить такие или ещё более экстремальные различия. Оценить вероятность получить именно такие различия, как в нашем эксперименте, в принципе невозможно!
Вот такие подводные камни могут скрываться в интерпретации такого показателя, как p-value. Поэтому очень важно понимать механизмы, заложенные в основании методов анализа и расчета основных статистических показателей.
Как найти p-value?
1. Определите ожидаемые в вашем эксперименте результаты
Обычно когда ученые проводят эксперимент, у них уже есть идея того, какие результаты считать «нормальными» или «типичными». Это может быть основано на экспериментальных результатах прошлых опытов, на достоверных наборах данных, на данных из научной литературы, либо ученый может основываться на каких-либо других источниках. Для вашего эксперимента определите ожидаемые результаты, и выразите их в виде чисел.
Пример: Например, более ранние исследования показали, что в вашей стране красные машины чаще получают штрафы за превышение скорости, чем синие машины. Например, средние результаты показывают предпочтение 2:1 красных машин перед синими. Мы хотим определить, относится ли полиция точно так же предвзято к цвету машин в вашем городе. Для этого мы будем анализировать штрафы, выданные за превышение скорости. Если мы возьмем случайный набор из 150 штрафов за превышение скорости, выданных либо красным, либо синим автомобилям, мы ожидаем, что 100 штрафов будет выписано красным автомобилям, а 50 синим, если полиция в нашем городе так же предвзято относится к цвету машин, как это наблюдается по всей стране.
2. Определите наблюдаемые результаты вашего эксперимента
Теперь, когда вы опредили ожидаемые результаты, необходимо провести эксперимент, и найти действительные (или «наблюдаемые») значения. Вам снова необходимо представить эти результаты в виде чисел. Если мы создаем экспериментальные условия, и наблюдаемые результаты отличаются от ожидаемых, то у нас есть две возможности – либо это произошло случайно, либо это вызвано именно нашим экспериментом. Цель нахождения p-значения как раз и состоит в том, чтобы определить, отличаются ли наблюдаемые результаты от ожидаемых настолько, чтобы можно было не отвергать «нулевую гипотезу» – гипотезу о том, что между экспериментальными переменными и наблюдаемыми результатами нет никакой связи.
Пример: Например, в нашем городе мы случайно выбрали 150 штрафов за превышение скорости, которые были выданы либо красным, либо синим автомобилям. Мы определили, что 90 штрафов были выписаны красным автомобилям, и 60 синим. Это отличается от ожидаемых результатов, которые равны 100 и 50, соответственно. Действительно ли наш эксперимент (в данном случае, изменение источника данных с национального на городской) привел к данному изменению в результатах, или наша городская полиция относится предвзято точно так же, как и в среднем по стране, а мы видим просто случайное отклонение? P-значение поможет нам это определить.
3. Определите число степеней свободы вашего эксперимента
Число степеней свободы — это степень изменяемости вашего эксперимента, которая определяется числом категорий, которые вы исследуете. Уравнение для числа степеней свободы – Число степеней свободы = n-1, где «n» это число категорий или переменных, которые вы анализируете в своем эксперименте.
Пример: В нашем эксперименте две категории результатов: одна категория для красных машин, и одна для синих машин. Поэтому в нашем эксперименте у нас 2-1 = 1 степень свободы. Если бы мы сравнивали красные, синие и зеленые машины, у нас было бы 2 степени свободы, и так далее.
4. Сравните ожидаемые и наблюдаемые результаты с помощью критерия хи-квадрат
Хи-квадрат (пишется «x2») это числовое значение, которое измеряет разницу между ожидаемыми и наблюдаемыми значениями эксперимента. Уравнение для хи-квадрата следующее x2 = Σ((o-e)2/e), где «o» это наблюдаемое значение, а «e» это ожидаемое значение. Суммируйте результаты данного уравнения для всех возможных результатов (смотри ниже).
Заметьте, что данное уравнение включает оператор суммирования Σ (сигма). Другими словами, вам необходимо подсчитать ((|o-e|-.05)2/e) для каждого возможного результата, и сложить полученные числа, чтобы получить значение критерия хи-квадрат. В нашем примере у нас два возможных результата – либо машина, получившая штраф красная, либо синяя. Поэтому мы должны посчитать ((o-e)2/e) дважды – один раз для красных машин, и один раз для синих машин.
Пример: Давайте подставим наши ожидаемые и наблюдаемые значения в уравнение x2 = Σ((o-e)2/e). Помните, что из-за оператора суммирования нам необходимо посчитать ((o-e)2/e) дважды – один раз для красных автомобилей, и один раз для синих автомобилей. Мы выполним эту работу следующим образом:
x2 = ((90-100)2/100) + (60-50)2/50)
x2 = ((-10)2/100) + (10)2/50)
x2 = (100/100) + (100/50) = 1 + 2 = 3.
5. Выберите уровень значимости
Теперь, когда мы знаем число степеней свободы нашего эксперимента, и узнали значение критерия хи-квадрат, нам нужно сделать еще одну вещь перед тем, как мы найдем наше p-значение. Нам нужно определить уровень значимости. Говоря простым языком, уровень значимости показывает, насколько мы уверены в наших результатах. Низкое значение для значимости соответствует низкой вероятности того, что экспериментальные результаты получились случайно, и наоборот. Уровни значимости записываются в виде десятичных дробей (таких как 0.01), что соответствует вероятности того, что экспериментальные результаты мы получили случайно (в данном случае вероятность этого 1%).
По соглашению, ученые обычно устанавливают уровень значимости своих экспериментов равным 0.05, или 5%.[2] Это означает, что экспериментальные результаты, которые соответствуют такому критерию значимости, только с вероятностью 5% могли получиться чисто случайно. Другими словами, существует 95% вероятность, что результаты были вызваны тем, как ученый манипулировал экспериментальными переменными, а не случайно. Для большинства экспериментов 95% уверенности наличия связи между двумя переменными достаточно, чтобы считать, что они «действительно» связаны друг с другом.
Пример: для нашего примера с красными и синими машинами, давайте последуем соглашению между учеными, и установим уровень значимости в 0.05.
6. Используйте таблицу с данными распределения хи-квадрат, чтобы найти ваше p-значение
Ученые и статисты используют большие таблицы для вычисления p-значения своих экспериментов. Данные таблицы обычно имеют вертикальную ось слева, соответствующую числу степеней свободы, и горизонтальную ось сверху, соответствующую p-значению. Используйте данные таблицы, чтобы сначала найти число ваших степеней свободы, затем посмотрите на ваш ряд слева направо, пока не найдете первое значение, большее вашего значения хи-квадрат. Посмотрите на соответствующее p-значение вверху вашего столбца. Ваше p-значение находится между этим числом и следующим за ним (тем, которое находится левее вашего).
Таблицы с распределением хи-квадрат можно получить из множества источников (вот по этой ссылке можно найти одну из них).
Пример: Наше значение критерия хи-квадрат было равно 3. Так как мы знаем, что в нашем эксперименте всего 1 степень свободы, выберем самую первую строку. Идем слева направо по данной строке, пока не встретим значение, большее 3, нашего значения критерия хи-квадрат. Первое, которое мы находим это 3.84. Смотрим вверх нашего столбца, и видим, что соответствующее p-значение равно 0.05. Это означает, что наше p-значение между 0.05 и 0.1 (следующее p-значение в таблице по возрастанию).
7. Решите, отклонить или оставить вашу нулевую гипотезу
Так как вы определили приблизительное p-значение для вашего эксперимента, вам необходимо решить, отклонять ли нулевую гипотезу вашего эксперимента или нет (напоминаем, это гипотеза о том, что экспериментальные переменные, которыми вы манипулировали не повлияли на наблюдаемые вами результаты). Если ваше p-значение меньше, чем ваш уровень значимости – поздравляем, вы доказали, что очень вероятна связь между переменными, которыми вы манипулировали и результатами, которые вы наблюдали. Если ваше p-значение выше, чем ваш уровень значимости, вы не можете с уверенностью сказать, были ли наблюдаемые вами результаты результатом чистой случайности или манипуляцией вашими переменными.
Пример: Наше p-значение находится между 0,05 и 0,1. Это явно не меньше, чем 0,05, поэтому, к сожалению, мы не можем отклонить нашу нулевую гипотезу. Это означает, что мы не достигли минимум 95% вероятности того, чтобы сказать, что полиция в нашем городе выдает штрафы красным и синим автомобилям с такой вероятностью, которая достаточно сильно отличается от средней по стране.
Другими словами, существует 5-10% шанс, что наблюдаемые нами результаты – это не последствия смены места (анализа города, а не всей страны), а просто случайность. Так как мы потребовали точности меньше чем 5%, мы не можем сказать что мы уверены в том, что полиция нашего города менее предвзято относится к красным автомобилям – существует небольшая (но статистически значимая) вероятность, что это не так.