Теоретический материал. Статистические модели

Статистические и теоретико-вероятностные методы составляют методологическую основу одноименного вида моделирования. На этом уровне формализации модели речь о вскрытии закона, обеспечивающего устранение неопределенности при принятии решения, пока еще не идет, но существует некоторый массив наблюдений за данной системой или ее аналогом, позволяющих сделать некие выводы относительно прошлого/текущего/будущего состояния системы, основываясь на гипотезе об инвариантности ее поведения.

Как всегда, сформулируем определение… Статистическая или теоретико-вероятностная модель (стохастическая модель) - это модель, в которой обеспечивается учет влияния случайных факторов в процессе функционирования системы, основанная на применении статистической или теоретико-вероятностной методологии по отношению к повторяющимся феноменам . Данная модель оперирует количественными критериями при оценке повторяющихся явлений и позволяет учитывать их нелинейность, динамику, случайные возмущения за счет выдвижения на основе анализа результатов наблюдений гипотез о характере распределения некоторых случайных величин, сказывающихся на поведении системы.

По существу, теоретико-вероятностные и статистические модели отличаются уровнем неопределенности знаний о моделируемой системе, существующей на момент синтеза модели. В случае, когда представления о системе носят, скорее, теоретический характер и основываются исключительно на гипотезах о характере системы и возмущающих воздействий, не подкрепленных результатами наблюдений, теоретико-вероятностная модель является единственно возможной. Когда же на этапе синтеза модели уже существуют данные, полученные опытным путем, появляется возможность подкрепления гипотез за счет их статистической обработки. Это становится очевидным, если рассмотреть соотношение между методами математической статистики и теории вероятностей. Математическая статистика - это наука, изучающая методы вскрытия закономерностей, свойственных большим совокупностям однородных объектов или событий, на основании их выборочного обследования (либо большим массивам данных, полученных в результате наблюдения за одним и тем же объектом на протяжении достаточно протяженного интервала времени). Теория же вероятностей изучает количественные закономерности, которым следуют случайные явления, если эти явления определяются событиями известной вероятности. Соответственно, математическая статистика является связующим звеном между теорией вероятностей и явлениями реального мира, поскольку позволяет сформулировать оценки вероятности тех или иных событий на основе анализа статистических данных.

Можно утверждать, что статистические модели представляют собой особый вид математических моделей, использующих в качестве исходных данных не только актуальные данные о текущем состоянии объекта, но и данные, характеризующие состояние либо других объектов данного класса, либо этого объекта, но в иной момент времени. Статистические модели применимы для изучения массовых явлений любой природы, включая и те, которые не относятся к категории вероятностно определенных (математическая статистика приспособлена и для решения детерминированных задач). При моделировании последних статистический процесс вводится в модель искусственно для получения статистических оценок численного решения (например, точности измерения параметров детерминированного процесса).

Методы математической статистики и теории вероятности могут вводиться, в том числе, и в логические и логико-лингвистические модели, как это было указано в предыдущем подразделе. Например, могут рассматриваться методы интеграции статистических оценок в модели семантических отношений для придания различных весов дугам, связывающим отдельные вершины. Статистические оценки могут быть внедрены и в системы представления тезаурусов для разрешения ситуаций полисемии без обращения к процедурам контекстного анализа. Иными словами, статистические методы могут составлять как основу модели, так и применяться для модификации моделей других типов.

Для обработки результатов наблюдений используются методы корреляционного, регрессионного, факторного, кластерного и иных видов анализа, оперирующих статистическими гипотезами. Особая роль здесь отводится методу статистических испытаний (методу Монте-Карло ). Это метод численного решения математических задач, основанный на многократном теоретико-вероятностном и статистическом моделировании случайных величин или процессов с целью построения статистических оценок для искомых величин. Сущность метода состоит в реализации многократного моделирования случайного явления с помощью некоторой процедуры, дающей случайный результат. Для этого с применением ЭВМ создается некоторое множество реализаций случайных процессов, моделирующих возмущающие воздействия на исследуемый объект или процесс, после чего производится моделирование этого процесса или объекта в условиях, определяемых полученными случайными воздействиями. Результаты такого моделирования обрабатывают с использованием методов математической статистики. При этом могут варьироваться тип и параметры распределения случайной величины.

Реализация случайного процесса методом Монте-Карло представляет собой последовательность розыгрышей единичных жребиев, перемежающихся обычными расчетами, в ходе которых определяется результат возмущающего воздействия на объект или процесс, на исход операции.

Поскольку адекватность модели распределения случайных воздействий в общем случае установить трудно, задачей моделирования с применением метода Монте-Карло является обеспечение робастности полученных решений (устойчивости к изменению параметров закона распределения случайных величин и начальных условий моделирования) . Если результат моделирования не является робастным (существенно зависит от параметров закона распределения и параметров модели), то это свидетельствует о наличии высокого риска при принятии решения в данной реализации моделируемой системы.

Важную роль в статистических моделях играют гипотезы о характере процессов смены состояний в моделируемой системе. Так, например, весьма интересный случай представляет собой гипотеза о «марковости » процессов (получившая название в честь русского ученого А.А. Маркова - начало XX века). Марковские процессы представляют собой случай процесса с детерминированными вероятностями, для которого ранняя предыстория смены состояний системы на некотором предшествующем интервале времени несущественна для установления вероятности наступления следующего события - основное значение придается ее текущему состоянию . Если существует уверенность в марковости процесса, это существенно меняет представления о системе (она может рассматриваться как «инерционная», в большой степени зависящая от текущего ее состояния и характера возмущающего воздействия). Принцип марковости был открыт при анализе текстов на естественных языках, где вероятность появления следующего символа может быть предсказана на основе статистического анализа текстовых массивов, на данном конкретном языке.

Статистическое моделирование тесно сопряжено с имитационным моделированием , ходе которого модель объекта нередко «погружается в вероятностную (статистическую) среду», в которой проигрываются различные ситуации и режимы функционирования модели/объекта. Однако имитационные модели могут реализовываться и в детерминированных средах.

Методы статистического моделирования широко распространены в сфере стратегического планирования и управления . Широкому распространению методов статистического моделирования в сфере оперативного управления препятствует высокая трудоемкость процесса моделирования. В основном это связано с необходимостью глубокой математической проработки моделей и высокими требованиями, предъявляемыми к математическим познаниям пользователей.

Идея случайного выбора. Прежде чем приступить к описанию статистических гипотез, обсудим еще раз понятие случайного выбора.

Если опустить детали и некоторые (хотя и важные) исключения, можно сказать, что весь статистический анализ основан на идее случайного выбора. Мы принимаем тезис, что имеющиеся данные появились как результат случайного выбора из некоторой генеральной совокупности, нередко - воображаемой. Обычно мы полагаем, что этот случайный выбор произведен природой. Впрочем, во многих задачах эта генеральная совокупность вполне реальна, и выбор из нее произведен активным наблюдателем.

Для краткости будем говорить, что все данные, которые мы собираемся изучить как единое целое, представляют собой одно наблюдение. Природа этого собирательного наблюдения может быть самой разнообразной. Это может быть одно число, последовательность чисел, последовательность символов, числовая таблица и т.д. Обозначим на время это собирательное наблюдение через х. Раз мы считаем х результатом случайного выбора, мы должны указать и ту генеральную совокупность, из которой х был выбран. Это значит, что мы должны указать те значения, которые могли бы появиться вместо реального х. Обозначим эту совокупность через X. Множество Х называют также выборочным пространством, или пространством выборок.

Мы предполагаем далее, что указанный выбор произошел в соответствии с неким распределением вероятностей на множестве X, согласно которому каждый элемент из Х имеет определенные шансы быть выбранным. Если Х - конечное множество, то у каждого его элемента x ; есть положительная вероятность р (х ) быть выбранным. Случайный выбор по такому вероятностному закону легко понимать буквально. Для более сложно устроенных бесконечных множеств Х приходится определять вероятность не для отдельных его точек, а для подмножеств. Случайный выбор одной из бесконечного множества возможностей вообразить труднее, он похож на выбор точки х из отрезка или пространственной области X.

Соотношение между наблюдением х и выборочным пространством X, между элементами которого распределена вероятность, - в точности такое же, как между элементарными исходами и пространством элементарных исходов, с которым имеет дело теория вероятностей. Благодаря этому теория вероятностей становится основой математической статистики, и поэтому, в частности, мы можем применять вероятностные соображения к задаче проверки статистических гипотез.

Прагматическое правило. Ясно, что раз мы приняли вероятностную точку зрения на происхождение наших данных (т.е. считаем, что они получены путем случайного выбора), то все дальнейшие суждения, основанные на этих данных, будут иметь вероятностный характер. Всякое утверждение будет верным лишь с некоторой вероятностью, а с некоторой тоже положительной вероятностью оно может оказаться неверным. Будут ли полезными такие выводы, и можно ли вообще на таком пути получить достоверные результаты?



На оба эти вопроса следует ответить положительно. Во-первых, знание вероятностей событий полезно, так как у исследователя быстро вырабатывается вероятностная интуиция, позволяющая ему оперировать вероятностями, распределениями, математическими ожиданиями и т.п., извлекая из этого пользу. Во-вторых, и чисто вероятностные результаты могут быть вполне убедительными: вывод можно считать практически достоверным, если его вероятность близка к единице.

Можно высказать следующее прагматическое правило, которым руководствуются люди и которое соединяет теорию вероятностей с нашей деятельностью.

Мы считаем практически достоверным событие, вероятность которого близка к 1;

Мы считаем практически невозможным событие, вероятность которого близка к 0.

И мы не только так думаем, но и поступаем в соответствии с этим!

Изложенное прагматическое правило, в строгом смысле, конечно, неверно, поскольку оно не защищает полностью от ошибок. Но ошибки при его использовании будут редки. Правило полезно тем, что дает возможность практически применять вероятностные выводы.

Иногда то же правило высказывают чуть по-другому: в однократном испытании маловероятное событие не происходит (и наоборот - обязательно происходит событие, вероятность которого близка к 1). Слово «однократный» вставлено ради уточнения, ибо в достаточно длинной последовательности независимых повторений опыта упомянутое маловероятное (в одном опыте!) событие встретится почти обязательно. Но это уже совсем другая ситуация.

Остается еще не разъясненным, какую вероятность следует считать малой. На этот вопрос нельзя дать количественного ответа, пригодного во всех случаях. Ответ зависит от того, какой опасностью грозит нам ошибка. Довольно часто - при проверке статистических гипотез, например, о чем см. ниже - полагают малыми вероятности, начиная с 0.01 ¸ 0.05. Другое дело - надежность технических устройств, например, тормозов автомобиля. Здесь недопустимо большой будет вероятность отказа, скажем, 0.001, так как выход из строя тормозов один раз на тысячу торможений повлечет большое число аварий. Поэтому при расчетах надежности нередко требуют, чтобы вероятность безотказной работы была бы порядка 1-10 -6 . Мы не будем обсуждать здесь, насколько реалистичны подобные требования: может ли обеспечить такую точность в расчете вероятности неизбежно приближенная математическая модель и как затем сопоставить расчетные и реальные результаты.

Предупреждения. 1. Следует дать несколько советов, как надо строить статистические модели, притом зачастую в задачах, не имеющих явного статистического характера. Для этого надо присущие обсуждаемой проблеме черты выразить в терминах, относящихся к выборочному пространству и распределению вероятностей. К сожалению, в общих словах этот процесс описать невозможно. Более того, этот процесс является творческим, и его невозможно заучить как, скажем, таблицу умножения. Но ему можно научиться, изучая образцы и примеры и следуя их духу. Мы разберем несколько таких примеров. В дальнейшем мы также будем уделять особое внимание этой стадии статистических исследований.

2. При формализации реальных задач могут возникать весьма разнообразные статистические модели. Однако математической теорией подготовлены средства для исследования лишь ограниченного числа моделей. Для ряда типовых моделей теория разработана очень подробно, и там можно получить ответы на основные вопросы, интересующие исследователя. Некоторую часть таких стандартных моделей, с которыми на практике приходится иметь дело чаще всего, мы обсудим в данной книге. Другие можно найти в более специальных и подробных руководствах и справочниках.

3. Об ограниченности математических средств стоит помнить и при математической формализации эксперимента. Если возможно, надо свести дело к типовой статистической задаче. Эти соображения особенно важны при планировании эксперимента или исследования; при сборе информации, если речь идет о статистическом обследовании; при постановке опытов, если мы говорим об активном эксперименте.

4.1.1. Статистическая модель. При статистическом (стохастическом) моделировании основными объектами моделирования являются случайные события, случайные величины и случайные функции.

При проведении экспериментов исследователь фиксирует появление или не появления интересующих событий, а также осуществляет измерения значений параметров, которые носят случайный характер и по своей сути являются значениями реализации некоторой случайной величины.

Статистическое моделирование дает возможность не проводя реальных экспериментов над исследуемым объектом (что в большинстве случаев требует больших материальных и финансовых затрат) получать соответствующую информацию о появлении или не появлении тех или иных событий происходящих в реальном объекте. о выборочных значениях случайных величин на основе имеющихся вероятностных характеристик моделируемых событий и случайных величин. Данный вид моделирования предполагает проведение предварительного сбора информации о моделируемых показателях и дальнейшей статистической обработки полученных результатов с целью получения обоснованных статистических оценок, требуемых для моделирования вероятностных характеристик.

Стохастические модели применяются в основном в двух случаях:

1) объект моделирования плохо изучен – не имеется достаточно хорошо разработанных количественных закономерностей, описывающих рассматриваемые процессы и явления, а так же нет возможности найти приемлемое аналитическое решение данной проблемы;

2) моделируемый объект изучен достаточно хорошо в детерминированном плане, но без учета случайных факторов, оказывающих влияние на изучаемые процессы и явления.

В первом случае на основе словесного описания исследуемого объекта производится выбор количественных показателей с расчетом их физической размерности состоящих из двух групп. Одна из групп рассматривается в качестве входных величин модели, а другая – выходных величин. Далее, применяя научные теоретические результаты полученные другими исследователями в данной области и возможно применяя ряд необходимых допущений, а так же возможно уже имеемые экспериментальные данные о входных и выходных величинах (например, об их законах распределения) устанавливают детерминированные или стохастические зависимости между входными выходными величинами модели. Совокупность полученных соотношений между входными и выходными величинами (обычно записываются в виде уравнений) называют статистической моделью.

В ходе реализации статистической модели на основе выбранных законов распределения случайных величин и выбранными вероятностями моделируемых событий методами математической статистики определяются выборочные до экспериментальные значения случайных величин и квазиэмпирические последовательности появления или не появления моделируемых событий. Далее, по уравнениям модели определяют соответствующие выборочные значения ее выходных величин. А многократная реализация построенной модели позволяет исследователю построить модельную выборку ее выходных величин, которая вновь подвергается статистическому анализу (корреляционному, регрессивному, дисперсионному, спектральному) с целью получения оценок характеристик выходных параметров модели или проверки выдвигаемых гипотез. На основе полученных результатов делаются заключения по объекту исследования, а также обоснования по практическому применению построенной модели.

Методы статистического моделирования широко применяются при решении задач массового обслуживания, теории оптимизации, теории управления, теоретической физике и т.д.

Теоретической основой метода статистического моделирования на компьютере являются предельные теоремы теории вероятностей.

4.1.2. Неравенство Чебышева . Для неотрицательной функции случайной величины и выполняется неравенство

.

4.1.3. Теорема Бернулли . Если проводятся независимых испытаний, в каждом из которых некоторое событие осуществляется с вероятностью , то относительная чистота появления события ( число благоприятных исходов испытания) при сходится по вероятности к , т.е. при

4.1.4. Теорема Пуассона . Если проводятся независимых испытаний и вероятность осуществления события в том испытании равна , то относительная чистота появления события ( число благоприятных исходов испытания) при сходится по вероятности к среднему из вероятностей , т.е. при

4.1.5. Теорема Чебышева . Если в независимых испытаниях наблюдаются значения случайной величины , то при среднее арифметическое значений случайной величины сходится по вероятности к ее математическому ожиданию , т.е. при

4.1.6. Обобщенная теорема Чебышева . Если независимые случайные величины с математическими ожиданиями и дисперсиями ограниченными сверху одним и тем же числом, то при среднее арифметическое значений случайной величины сходится по вероятности к среднему арифметическому их математических ожиданий

4.1.7. Теорема Маркова .. Теорема Чебышева будет справедлива и для зависимых случайных величин , если

4.1.8. Центральная предельная теорема . Если независимые одинаково распределенные случайные величины с математическое ожидание и дисперсию , то при закон распределения суммы неограниченно приближается к нормальному закону распределения

где функция Лапласа

4.1.9. Теорема Лапласа . Если в каждом из независимых испытаний событие появляется с вероятностью , то

Статическое моделирование - представление или описание некоторого феномена или системы взаимосвязей между явлениями посредством набора переменных (показателей, признаков) и статистических взаимосвязей между ними. Цель статического моделирования (как и любого другого моделирования) - представить наиболее существенные черты изучаемого феномена в наглядном и доступном для изучения виде. Все статистические модели предназначены, в конечном счете, для измерения силы и направления связей между двумя или более переменными. Наиболее сложные модели позволяют также судить о структуре связей между несколькими переменными. Большинство статистических моделей можно условно разделить на корреляционные, структурные и причинные. Корреляционные модели используются для измерения парных "ненаправленных" связей между переменными, т.е. таких связей, в которых причинная компонента отсутствует либо игнорируется. Примерами таких моделей являются коэффициент парной линейной корреляции Пирсона, ранговые коэффициенты парной и множественной корреляции, большинство мер связи, разработанных для таблиц сопряженности (за исключением теоретико-информационных коэффициентов и логарифмически-линейного анализа).

Структурные модели в статическом моделировании предназначены для исследования структуры некоторого множества переменных либо объектов. Исходными данными для изучения структуры связей между несколькими переменными является матрица корреляций между ними. Анализ корреляционной матрицы может осуществляться вручную либо с помощью методов многомерного статистического анализа - факторного, кластерного, метода многомерного шкалирования. Во многих случаях исследование структуры связей между переменными является предварительным этапом при решении более сложной задачи - снижения размерности пространства признаков.

Для исследования структуры совокупности объектов применяются методы кластерного анализа и многомерного шкалирования. В качестве исходных данных используется матрица расстояний между ними. Расстояние между объектами тем меньше, чем больше объекты "похожи" друг на друга в смысле значений, измеренных на них переменных; если значения всех переменных для двух объектов совпадают, расстояние между ними равно нулю. В зависимости от целей исследования, структурные модели могут быть представлены в виде матриц (корреляций, расстояний), факторной структуры либо визуально. Результаты кластерного анализа чаще всего представляются в виде дендрограммы; результаты факторного анализа и многомерного шкалирования - в виде диаграммы рассеяния. Структура матрицы корреляций может быть также представлена в виде графа, отражающего наиболее существенные связи между переменными. Причинные модели предназначены для исследования причинных связей между двумя или несколькими переменными. Переменные, измеряющие явления-причины, называются в статистике независимыми переменными или предикторами; переменные, измеряющие явления-следствия, называются зависимыми. Большинство причинных статистических причинных моделей предполагают наличие одной зависимой переменной и одного или нескольких предикторов. Исключение составляют линейно-структурные модели, в которых может одновременно использоваться несколько зависимых переменных, а некоторые переменные могут в одно и то же время выступать в качестве зависимых по отношению к одним показателям и в качестве предикторов по отношению к другим.

Различают две области применения метода статистического моделирования: статическое имитационное моделирование планирование

  • - для изучения стохастических систем;
  • - для решения детерминированных задач.

Основной идеей, которая используется для решения детерминированных задач методом статистического моделирования, является замена детерминированной задачи эквивалентной схемой некоторой стохастической системы, выходные характеристики последней совпадают с результатом решения детерминированной задачи. При такой замене погрешность уменьшается с увеличением числа испытаний (реализации моделирующего алгоритма) N.

В результате статистического моделирования системы S получается серия частных значений искомых величин или функций, статистическая обработка которых позволяет получить сведения о поведении реального объекта или процесса в произвольные моменты времени. Если количество реализации N достаточно велико, то полученные результаты моделирования системы приобретают статистическую устойчивость и с достаточной точностью могут быть приняты в качестве оценок искомых характеристик процесса функционирования системы S.

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

МИНОБРНАУКИ РОССИИ

Федеральное государственное автономное образовательное
учреждение высшего профессионального образования
«Южный федеральный университет»

Кафедра «Информационно- измерительная техника и технология»

Специальность

230201 Информационные системы и технологии

РЕФЕРАТ

По предмету: «Организация исследований и разработок»

На тему: «Методы математического моделирования в статистике»

Выполнил студент: Строцев Василий Андреевич

Преподаватель: Гусенко Тамара Григорьевна

1. Элементы математической статистики

Математической статистикой называют раздел математики, посвященный математическим методам систематизации, обработки и использования статистических данных для научных и практических выводов. Статистические данные здесь понимаются как сведения о числе объектов в какой-либо более или менее обширной совокупности, обладающих теми или иными признаками.

Главная цель математической статистики - получение осмысленных, научно обоснованных выводов из подверженных случайному разбросу данных. При этом само изучаемое явление, генерирующее эти данные, чаще всего слишком сложно, чтобы можно было составить его полное описание, отражающее все детали. Поэтому статистические выводы делаются на основе некоторой математической вероятностной модели реального случайного явления, которая должна воспроизводить его существенные черты и исключать те, которые предполагаются несущественными. Методы математической статистики позволяют по наблюдениям над изучаемым явлением определить вероятностные характеристики случайных величин, участвующих в математической модели, описывающей это явление.

Задача математической статистики - установление закономерностей, которым подчинены массовые случайные явления, основано на изучении методами теории вероятностей статистических данных- результатов наблюдений. Статистические данные представляют собой данные, полученные в результате обследования большого числа объектов или явлений; следовательно, математическая статистика имеет дело с массовыми явлениями.

Первая задача математической статистики - указать способы сбора и группировки статистических сведений, полученных в результате наблюдений или в результате специально поставленных экспериментов.

Вторая задача математической статистики - разработать методы анализа статистических данных в зависимости от целей исследования.

Современная математическая статистика разрабатывает способы определения числа необходимых испытаний до начала исследования, в ходе исследования и решает многие другие задачи. Современную математическую статистику определяют как науку о принятии решений в условиях неопределенности.

Здача математической статистики состоит в создании методов сбора и обработки статистических данных для получения научных и практических выводов.

1.1 Генеральная и выборочная совокупность статистических данных

Пусть требуется изучить совокупность однородных объектов относительно некоторого качественного или количественного признака, характеризующего эти объекты.

Качественными признаками объект обладает либо не обладает. Они не поддаются непосредственному измерению (например, спортивная специализация, квалификация, национальность, территориальная принадлежность и т. п.).

Количественные признаки представляют собой результаты подсчета или измерения. В соответствии с этим они делятся на дискретные и непрерывные.

Иногда проводиться сплошное обследование, т.е. обследуют каждый из объектов совокупности относительно признака, которым интересуются. На практике сплошное обследование применяют сравнительно редко. Например, если совокупность содержит очень большое число объектов, то провести сплошное обследование физически невозможно. В таких случаях случайно отбирают из всей совокупности ограниченное число объектов и подвергают их изучению. Различают генеральную и выборочную совокупности.

Выборочной совокупностью (выборкой) называют совокупность случайно отобранных объектов.

Генеральной (основной) совокупностью называют совокупность, объектов из которых производится выборка.

Объемом совокупности (выборочной или генеральной) называют число объектов этой совокупности. Например, если из 1000 деталей отобрано для обследования 100 деталей, то объем генеральной совокупности N = 1000, а объем выборки n =100. Число объектов генеральной совокупности N значительно превосходит объем выборки n.

1.2 Способы выборки

При составлении выборки можно поступать двумя способами: после того как объект отобран и над ним произведено наблюдение, он может быть возвращен либо не возвращен в генеральную совокупность. В соответствии со сказанным выборки подразделяют на повторные и бесповторные.

Повторной называют выборку, при которой отобранный объект (перед отбором следующего) возвращается в генеральную совокупность.

Бесповторной называют выборку, при которой отобранный объект в генеральную совокупность не возвращается.

Для того чтобы по данным выборки можно было достаточно уверенно судить об интересующем признаке генеральной совокупности, необходимо, чтобы объекты выборки правильно его представляли (выборка должна правильно представлять пропорции генеральной совокупности) - выборка должна быть репрезентативной (представительной).

Выборка будет репрезентативной, если:

· каждый объект выборки отобран случайно из генеральной совокупности;

· все объекты имеют одинаковую вероятность попасть в выборку.

1.3 Способы группировки статистических данных

1.3.1 Дискретный вариационный ряд

Обычно полученные наблюдаемые данные представляют собой множество расположенных в беспорядке чисел. Просматривая это множество чисел, трудно выявить какую-либо закономерность их варьирования (изменения). Для изучения закономерностей варьирования значений случайной величины опытные данные подвергают обработке.

Пример 1. Проводились наблюдения над числом Х оценок полученных студентами ВУЗа на экзаменах. Наблюдения в течение часа дали следующие результаты: 3; 4; 3; 5; 4; 2; 2; 4; 4; 3; 5; 2; 4; 5; 4; 3; 4; 3; 3; 4; 4; 2; 2; 5; 5; 4; 5; 2; 3; 4; 4; 3; 4; 5; 2; 5; 5; 4; 3; 3; 4; 2; 4; 4; 5; 4; 3; 5; 3; 5; 4; 4; 5; 4; 4; 5; 4; 5; 5; 5. Здесь число Х является дискретной случайной величиной, а полученные о ней сведения представляют собой статистические (наблюдаемые) данные.

Расположив приведенные выше данные в порядке неубывания и сгруппировав их так, что в каждой отдельной группе значения случайной величины будут одинаковы, получают ранжированный ряд данных наблюдения.

В примере 1 имеем четыре группы со следующими значениями случайной величины: 2; 3; 4; 5. Значение случайной величины, соответствующее отдельной группе сгруппированного ряда наблюдаемых данных, называют вариантом, а изменение этого значения варьированием.

Варианты обозначают малыми буквами латинского алфавита с соответствующими порядковому номеру группы индексами - xi . Число, которое показывает, сколько раз встречается соответствующий вариант в ряде наблюдений называют частотой варианта и обозначают соответственно - ni .

Сумма всех частот ряда - объем выборки. Отношение частоты варианта к объему выборки ni / n = wi называют относительной частотой.

Статистическим распределением выборки называют перечень вариантов и соответствующих им частот или относительных частот (табл. 1, табл. 2).

Пример 2. Задано распределение частот выборки объема n = 20 :

Таблица 1

Контроль : 0,15 + 0,50 + 0, 35 = 1.

Статистическое распределение можно задать также в виде последовательности интервалов и соответствующих им частот (в качестве частоты, соответствующей интервалу, принимают сумму частот, попавших в этот интервал).

Дискретным вариационным рядом распределения называют ранжированную совокупность вариантов xi с соответствующими им частотами ni или относительными частотами wi .

Для рассмотренного выше примера 1 дискретный вариационный ряд имеет вид:

Таблица 3

Контроль : сумма всех частот вариационного ряда (сумма значений второй строки таблицы 3) есть объем выборки (в примере 1 n = 60 ); сумма относительных частот вариационного ряда должна быть равна 1 (сумма значений третьей строки таблицы 3)

1.3.2 Интервальный вариационный ряд

Если изучаемая случайная величина является непрерывной, то ранжирование и группировка наблюдаемых значений зачастую не позволяют выделить характерные черты варьирования ее значений. Это объясняется тем, что отдельные значения случайной величины могут как угодно мало отличаться друг от друга и поэтому в совокупности наблюдаемых данных одинаковые значения величины могут встречаться редко, а частоты вариантов мало отличаются друг от друга.

Нецелесообразно также построение дискретного ряда для дискретной случайной величины, число возможных значений которой велико. В подобных случаях следует строить интервальный вариационный ряд распределения.

Для построения такого ряда весь интервал варьирования наблюдаемых значений случайной величины разбивают на ряд частичных интервалов и подсчитывают частоту попадания значений величины в каждый частичный интервал.

Интервальным вариационным рядом называют упорядоченную совокупность интервалов варьирования значений случайной величины с соответствующими частотами или относительными частотами попаданий в каждый из них значений величины.

Для построения интервального ряда необходимо:

1. определить величину частичных интервалов;

2. определить ширину интервалов;

3. установить для каждого интервала его верхнюю и нижнюю границы;

4. сгруппировать результаты наблюдении.

1. Вопрос о выборе числа и ширины интервалов группировки приходится решать в каждом конкретном случае исходя из целей исследования, объема выборки и степени варьирования признака в выборке.

Приблизительно число интервалов k можно оценить исходя только из объема выборки n одним из следующих способов:

· по формуле Стержеса : k = 1 + 3,32·lg n ;

· с помощью таблицы 1.

Таблица 1

2. Обычно предпочтительны интервалы одинаковой ширины. Для определения ширины интервалов h вычисляют:

· размах варьирования R - значений выборки: R = xmax - xmin , где xmax и xmin - максимальная и минимальная варианты выборки;

· ширину каждого из интервалов h определяют по следующей формуле: h = R/k .

3. Нижняя граница первого интервала xh1 выбирается так, чтобы минимальная варианта выборки xmin попадала примерно в середину этого интервала: xh1 = xmin - 0,5·h .

Промежуточные интервалы получают прибавляя к концу предыдущего интервала длину частичного интервала h :

xhi = xhi-1 +h .

Построение шкалы интервалов на основе вычисления границ интервалов продолжается до тех пор, пока величина xhi удовлетворяет соотношению:

xhi < xmax + 0,5·h .

4. В соответствии со шкалой интервалов производится группирование значений признака - для каждого частичного интервала вычисляется сумма частот ni вариант, попавших в i -й интервал. При этом в интервал включают значения случайной величины, большие или равные нижней границе и меньшие верхней границы интервала.

1.4 Полигон и гистограмма

Для наглядности строят различные графики статистического распределения. По данным дискретного вариационного ряда строят полигон частот или относительных частот.

Полигоном частот называют ломанную, отрезки которой соединяют точки (x1 ; n1 ), (x2 ; n2 ),..., (xk ; nk ). Для построения полигона частот на оси абсцисс откладывают варианты xi , а на оси ординат - соответствующие им частоты ni . Точки (xi ; ni ) соединяют отрезками прямых и получают полигон частот (Рис. 1).

Полигоном относительных частот называют ломанную, отрезки которой соединяют точки (x1 ; W1 ), (x2 ; W2 ),..., (xk ; Wk ). Для построения полигона относительных частот на оси абсцисс откладывают варианты xi , а на оси ординат - соответствующие им относительные частоты Wi . Точки (xi ; Wi ) соединяют отрезками прямых и получают полигон относительных частот. В случае непрерывного признака целесообразно строить гистограмму.

Гистограммой частот называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которых служат частичные интервалы длиной h , а высоты равны отношению ni / h (плотность частоты).

Для построения гистограммы частот на оси абсцисс откладывают частичные интервалы, а над ними проводят отрезки, параллельные оси абсцисс на расстоянии ni / h .

Площадь i hni / h = ni - сумме частот вариант i - го интервала; следовательно, площадь гистограммы частот равна сумме всех частот, т.е. объему выборки.

Гистограммой относительных частотназывают ступенчатую фигуру, состоящую из прямоугольников, основаниями которых служат частичные интервалы длиной h , а высоты равны отношению Wi / h (плотность относительной частоты).

Для построения гистограммы относительных частот на оси абсцисс откладывают частичные интервалы, а над ними проводят отрезки, параллельные оси абсцисс на расстоянии Wi / h (Рис. 2).

Площадьi - го частичного прямоугольника равна hWi / h = Wi - относительной частоте вариант попавших в i - й интервал. Следовательно, площадь гистограммы относительных частот равна сумме всех относительных частот, т.е. единице.

1.5 Оценка параметров генеральной совокупности

Основными параметрами генеральной совокупности являются математическое ожидание (генеральная средняя) М(Х) и среднее квадратическое отклонение s . Это постоянные величины, которые можно оценить по выборочным данным. Оценка генерального параметра, выражаемая одним числом, называется точечной.

Точечной оценкой генеральной средней является выборочное среднее.

Выборочным средним называется среднее арифметическое значение признака выборочной совокупности.

Если все значения x1, x2,..., xn признака выборки различны (или если данные не сгруппированы), то:

x1, x2,..., xn n1, n2,..., nk , причем n1 + n2 +...+ nk = n (или если выборочное среднее вычисляется по вариационному ряду), то

В том случае, когда статистические данные представлены в виде интервального вариационного ряда, при вычислении выборочного среднего значениями вариант считают середины интервалов.

Выборочное среднее является основной характеристикой положения, показывает центр распределения совокупности, позволяет охарактеризовать исследуемую совокупность одним числом, проследить тенденцию развития, сравнить различные совокупности (выборочное среднее является той точкой, сумма отклонений наблюдений от которой равна 0).

Для оценки с тепени разброса (отклонения) какого-то показателя от его среднего значения, наряду с максимальным и минимальным значениями, используются понятия дисперсии и стандартного отклонения.

Дисперсия выборки или выборочная дисперсия (от английского variance) - это мера изменчивости переменной. Термин впервые введен Фишером в 1918 году.

Выборочной дисперсией Dв называют среднее арифметическое квадратов отклонения наблюдаемых значений признака от их среднего значения.

Если все значения x1, x2,..., xn признака выборки объема n различны, то:

Если же все значения признака x1, x2,..., xn имеют соответственно частоты n1, n2,..., nk , причем n1 + n2 +...+ nk = n , то

Дисперсия меняется от нуля до бесконечности. Крайнее значение 0 означает отсутствие изменчивости, когда значения переменной постоянны.

Среднее квадратическое отклонение (стандартное отклонение), (от английского standard deviation) вычисляется как корень квадратный из дисперсии.

Чем выше дисперсия или стандартное отклонение, тем сильнее разбросаны значения переменной относительно среднего.

Непараметрическими характеристиками положения являются мода и медиана.

Модой Mo называется варианта, имеющая наибольшую частоту или относительную частоту.

Медианой Me называется варианта, которая делит вариационный ряд на две части, равные по числу вариант.

При нечетном числе вариант (n=2k+1)

Me = xk+1 ,

а при четном числе вариант (n=2k)

Me = (xk + xk+1)/2 .

2. Корреляционный и регрессионный анализ

2.1 Корреляционный анализ

математический статистический группировка корреляционный

Корреляционный анализ предусматривает установление статистической связи между случайными величинами. Он может быть использован в педагогических исследованиях для оценки влияния одних факторов на другие и установления связи между ними в совокупности с другими параметрами - математическими ожиданиями и среднеквадратическими отклонениями. Корреляционный анализ непосредственно не может быть применен к выявлению причинно-следственных связей между случайными процессами. Он только устанавливает связь статистических характеристик связанных случайных процессов.

Пусть имеется две случайные величины X и Y c математическими ожиданиями mx и my соответственно. Корреляционный момент

Kxy =M((X-mx)(Y-my))

будет характеризовать связь между величинами X и Y. Для удобства использования корреляционные моменты нормируют по формуле

где уx и уy - среднеквадратические отклонения величин X и Y. Величина Kk - называется коэффициентом корреляции величин X и Y.

Для дискретных случайных величин, с которыми мы имеем дело, оценка коэффициента корреляции вычисляется по формуле

Формула для вычисления коэффициента корреляции справедлива при условии, что связь между случайными величинами линейна и каждая из этих величин подчинена нормальному закону.

Оценить статистическую связь между уровнем школьной подготовки и успеваемостью студентов первого курса по дисциплине «Информатика» Школьная подготовка оценивается путем тестирования при поступлении в вуз (величина X). Успеваемость студентов оценивается по результатам экзамена после первого семестра (величина Y). Номер студента обозначен N.

Исходные данные для расчета сведены в таблицу

Подставив данные из таблицы в выражение (1), получаем Kk=0,78.

Видим, что статистические характеристики величин X и Y близки друг к другу.

2.2 Регрессионный анализ

Регрессионный анализ ставит перед собой задачу статистического исследования зависимости между зависимой переменной и независимой переменной (регрессором или предикатором). В простейшем случае предполагается, что эта зависимость является линейной. Решается задача построения линейной зависимости вида y=ax+b, где хi и yi независимая и зависимая переменный соответственно (i=1,2,3,…). Решение находится методом наименьших квадратов. Минимизируется величина

min находятся коэффициенты a и b.

Расчетные формулы имеют следующий вид:

По существу, совокупность экспериментально полученных точек приближенно заменяется аналитической зависимостью y=ax+b. Такая замена существенно упрощает математические преобразования и может быть использована при построении аналитических моделей. В общем случае для построения регрессионной зависимости может быть выбрана не только линейная, но и любая другая функция. Естественно, формулы вычисления искомых параметров усложняются.

3. Математические методы оптимизации экспериментов

3.1 Симплексный метод оптимизации

Симплексом называется правильный многогранник, имеющий п+1 вершину, где п - число факторов, влияющих на процесс. Так, например, если факторов два, то симплексом является правильный треугольник.

Рис. 1 Оптимизация по симплексному методу

Начальная серия опытов соответствует вершинам исходного симплекса (точки 1, 2 и 3). Условия этих первых опытов берутся из области значений факторов, соответствующих наиболее благоприятным из известных режимов оптимизируемого процесса. Сравнивая между собой результаты опытов в точках 1, 2 и 3, находят среди них самый «плохой», с точки зрения выбранного критерия оптимальности. Пусть, например, самым «неудачным» оказался опыт в точке 1. Этот опыт исключают из рассмотрения, а вместо него в состав симплекса вводят опыт в точке 4, которая симметрична точке 1 относительно противоположной стороны треугольника, соединяющей точки 2 и 3.

Далее сравнивают между собой результаты опытов в вершинах нового симплекса, отбрасывают самый «неудачный» из них и переносят соответствующую вершину симплекса в точку 5. Затем рассмотренная процедура повторяется в течение всего процесса оптимизации.

Если экстремум критерия оптимальности достигнут, то дальнейшее движение симплекса прекращается. Это значит, что новый шаг возвращает исследователя в предыдущую точку факторного пространства.

Если существует несколько экстремумов критерия оптимальности, то этот метод позволяет найти тот из них, который расположен ближе к точкам исходного симплекса. Поэтому, если есть подозрение о существовании нескольких экстремумов критерия оптимальности, нужно осуществить их поиск, каждый раз начиная оптимизацию из новой области факторного пространства. Затем следует сравнить между собой найденные оптимальные условия и из всех вариантов выбрать наилучший.

При оптимизации необходимо принимать во внимание ограничения, наложенные на влияющие факторы и функции отклика.

Важно отметить, что при пользовании симплексным методом не обязательно дублировать опыты. Дело в том, что ошибка в отдельном опыте может только несколько замедлить оптимизацию. Если же последующие опыты выполняются безупречно, то движение к оптимуму продолжается.

Матрица опытов исходного симплекса в кодированных переменных приведена в табл.11.

Величины, входящие в эту таблицу, рассчитываются по следующим формулам:

Здесь i--номер фактора в матрице планирования. Символом 0 обозначены координаты центра плана, т. е. основной уровень.

Таблица 11

Матрица исходного симплекса

Номер опыта

X 2

Функция отклика

K 2

K 2

Опыты, представленные в табл. 11, соответствуют вершинам симплекса, сторона которого равна единице, а центр совпадает с началом координат (в кодированных переменных).

Результаты расчетов, выполненных на основании табл. 11 и формул (*).приведены в табл. 12.

Таблица 12

Условия начальной серии опытов

Номер опыта

Очевидно, наибольшее количество опытов приходится ставить в начале эксперимента. Затем на каждом шаге оптимизации выполняется только один опыт.

Приступая к оптимизации, необходимо с помощью табл. 11 или 12 рассчитать матрицу исходной серии опытов в физических переменных, пользуясь формулой

В дальнейшем все операции производятся только с физическими1. переменными.

Условия каждого нового опыта рассчитываются по формуле:

где п-- число факторов в матрице планирования;

j -- номер опыта;

i--номер фактора;

Значение i-го фактора в самом «неудачном» опыте предыдущего симплекса.

Следует отметить, что на любом шаге оптимизации, осуществляемой симплексным методом, можно включить в программу исследований новый фактор, который до тех пор не принимался во внимание, но оставался на постоянном уровне.

При этом значения всех ранее рассматриваемых факторов рассчитываются по формуле:

где 1= 1, 2,..., п, то есть являются средними арифметическими значениями соответствующих координат предыдущего симплекса.

Значение вновь вводимого фактора определяется по формуле:

где x0(n+1)--основной уровень этого фактора;

Дxn+1--выбранный шаг варьирования для данного фактора;

Rn +1, kn +1 --величины, рассчитываемые по формулам (*).

Отметим, что добавление нового фактора в состав полного «факторного эксперимента сопровождается увеличением количества опытов вдвое. В этом смысле симплексный метод имеет очевидное преимущество.

Пример 3.2. Пусть требуется с помощью симплексного метода оптимизировать выход целевого продукта у (%), который получается при взаимодействии двух реагентов с концентрациями x1 и x2 () при температуре x3 (°С).

Выберем основные уровни и шаги варьирования факторов и сведем их в табл. 13.

Таблица 13

Значения уровней факторов и шагов варьирования

Основной уровень

Шаг варьирования

Пользуясь формулой (3.5) и табл. 12, рассчитаем условия проведения первых четырех опытов и полученные результаты сведем в табл. 14. Так, например, для третьего опыта

x31=1+0,1*0==1; x32== 1,50 +0,2 (--0,578) ==1,38; x33=60+5*0,204==61.

Таблица 14

Оптимизация симплексным методом

Номер опыта

Функция отклика

Сравнивая между собой результаты первых четырех опытов, видим, что самый низкий выход целевого продукта получился в третьем опыте. Этот опыт следует исключить из дальнейшего рассмотрения.

Заменим его опытом 5, условия проведения которого рассчитаем по формуле (**):

В новом симплексе, образованном опытами 1, 2, 4 и 5, самым «неудачным» является опыт 4. Его заменим опытом 6, условия которого найдем, пользуясь той же формулой (**).

Рассмотрим теперь вопрос о том, как включить в программу исследований еще один фактор, например скорость вращения мешалки. Пусть до этих пор она была постоянной и равной 500 об/мин. Теперь будем считать эту величину фактором x4 и примем для нее шаг варьирования Дx4==100 об/мин.

Предыдущий симплекс для трех факторов (см. табл. 14) состоит из опытов 1, 2, 5 и 6. Чтобы из него получить новый симплекс для четырех факторов, введем опыт 7 (табл. 15).

Таблица 15

Добавление нового фактора в программу оптимизации

Номер опыта

Функция отклика

Условия проведения 7-го опыта найдем по формулам (3.7) и (3.8):

Размещено на Allbest.ru

...

Подобные документы

    Математические методы систематизации и использования статистических данных для научных и практических выводов. Закон распределения дискретной случайной величины. Понятие генеральной совокупности. Задачи статистических наблюдений. Выборочное распределение.

    реферат , добавлен 10.12.2010

    Понятие математической статистики как науки о математических методах систематизации и использования статистических данных для научных и практических выводов. Точечные оценки параметров статистических распределений. Анализ вычисления средних величин.

    курсовая работа , добавлен 13.12.2014

    Математическая статистика как наука о математических методах систематизации статистических данных, ее показатели. Составление интегральных статистических распределений выборочной совокупности, построение гистограмм. Вычисление точечных оценок параметров.

    курсовая работа , добавлен 10.04.2011

    Первичный анализ и основные характеристики статистических данных. Точечные оценки параметров распределения. Доверительные интервалы для неизвестного математического ожидания и для среднего квадратического отклонения. Проверка статистических гипотез.

    дипломная работа , добавлен 18.01.2016

    Статистика – наука о массовых явлениях в природе и обществе; получение, обработка, анализ данных. Демографическая статистика, прогноз численности населения России. Методы обработки статистических данных: элементы логики, комбинаторики, теории вероятности.

    презентация , добавлен 19.12.2012

    Применение в статистике конкретных методов в зависимости от заданий. Методы массовых наблюдений, группировок, обобщающих показателей, динамических рядов, индексный метод. Корреляционный и дисперсный анализ. Расчет средних статистических величин.

    контрольная работа , добавлен 21.09.2009

    Получение статистических данных для обобщенной характеристики состояния и развития явления. Виды, способы и организационные формы статистического наблюдения. Статистический формуляр, сводка и группировка данных. Статистические таблицы и графики.

    реферат , добавлен 12.11.2009

    Определение математического ожидания и среднеквадратического отклонения с целью подбора закона распределения к выборке статистических данных об отказах элементов автомобиля. Нахождения числа событий в заданном интервале; расчет значения критерия Пирсона.

    контрольная работа , добавлен 01.04.2014

    Табличный метод представления данных правовой статистики. Абсолютные и обобщающие показатели. Относительные величины, их основные виды и применение. Среднее геометрическое, мода и медиана. Метод выборочного наблюдения. Классификация рядов динамики.

    контрольная работа , добавлен 29.03.2013

    Первичная обработка статистических данных по количеству зарегистрированных абонентских терминалов сотовой связи за 2008 год на 1000 населения в регионах России. Интервальное оценивание параметров. Гипотеза о виде распределения. Регрессионный анализ.



Поделиться