Математическое моделирование экономических систем. Статистическое моделирование экономических систем. Теоретические основы метода статистического моделирования. Моделирование систем массового обслуживания с использованием метода Монте-Карло. Теоретические основы обработки результатов статистического моделирования

Индивидуальные онлайн уроки: Отправьте запрос сейчас: ut2018@protonmail.com    
Математика (ЕГЭ, ОГЭ), Английский язык (разговорный, грамматика, TOEFL)
Решение задач: по математике, IT, экономике, психологии





Математическое моделирование экономических систем

 

Лекция 3

 

Тема лекции 3: «Статистическое моделирование экономических систем»

Разделы лекции:

 

1. Теоретические основы метода статистического моделирования. 

2. Моделирование систем массового обслуживания  с использованием метода Монте-Карло. 

3. Теоретические основы обработки результатов статистического моделирования.

 

РАЗДЕЛ 1. ТЕОРЕТИЧЕСКИЕ ОСНОВЫ МЕТОДА СТАТИСТИЧЕСКОГО МОДЕЛИРОВАНИЯ. 

 

ЧТО ТАКОЕ МЕТОД МОНТЕ-КАРЛО?

 

Метод статистического моделирования (или метод Монте-Карло) – это способ исследования поведения вероятностных систем (экономических, технических и т. д.) в условиях, когда не известны в полной мере внутренние взаимодействия в этих системах. Первые сведения о методе Монте-Карло были опубликованы в конце 1940-х годов.  Авторами метода являются американские математики Дж.Нейман и С.Улам. В нашей стране первые работы были опубликованы в 1955—1956 годах В.В.Чавчанидзе, Ю.А.Шрейдером и B.C.Владимировым.

ЧТО ТАКОЕ РЕАЛИЗАЦИЯ (ИСПЫТАНИЕ) В МЕТОДЕ МОНТЕ-КАРЛО?

 

Метод Монте-Карло заключается в воспроизведении исследуемого физического процесса при помощи вероятностной математической модели и вычислении характеристик этого процесса. Одно такое воспроизведение функционирования системы называют реализацией, или испытанием. После каждого испытания регистрируют совокупность параметров, характеризующих случайный исход реализации.

 

НА ЧЕМ ОСНОВАН МЕТОД МОНТЕ-КАРЛО?

 

Метод основан на многократных испытаниях построенной модели с последующей статистической обработкой полученных данных с целью определения числовых характеристик рассматриваемого процесса в виде статистических оценок его параметров. Процесс моделирования функционирования экономической системы сводится к машинной имитации изучаемого процесса, который как бы копируется на ЭВМ со всеми сопровождающими его случайностями.

 

В основе метода статистического моделирования лежит ЗАКОН БОЛЬШИХ ЧИСЕЛ.  Закон больших чисел в теории вероятностей доказывает для различных условий сходимость по вероятности средних значений результатов большого числа наблюдений к некоторым постоянным величинам.

 

Под законом больших чисел понимают ряд теорем.

 

Например, одна из теорем П.Л.Чебышева формулируется так:

 

«При неограниченном увеличении числа независимых испытаний n среднее арифметическое свободных от систематических ошибок и равноточных результатов наблюдений ξi случайной величины ξ, имеющей конечную дисперсию D(ξ), сходится по вероятности к математическому ожиданию M(ξ) этой случайной величины».

Сформулированное выше утверждение можно записать в следующем виде:

 

где ε– сколь угодно малая положительная величина.

 

Теорема Бернулли формулируется так:

 

«При неограниченном увеличении числа независимых испытаний в одних и тех же условиях частота Р*(А) наступления случайного события А сходится по вероятности к его вероятности Р».

Данную теорему можно записать в следующем виде:

 

 

 

Согласно данной теореме для получения вероятности какого-либо события, например вероятности состояний некоторой системы

 

Pi(t), i =0, …, k,

 

вычисляют частоты

 

P*i=m*i/n,  i =0, …, k,

для одной реализации (испытания), далее проводят подобные вычисления для числа реализаций, равного n.  Затем полученные результаты усредняют,  и этим самым с некоторым приближением получают искомые вероятности состояний системы. На основе вычисленных вероятностей определяют другие характеристики системы.

 

ЗАМЕЧАНИЕ 1. Следует отметить, что чем больше число реализаций n, тем точнее результаты вычисления искомых величин (вероятностей состояний системы). Последнее утверждение легко доказать. Предположим, что требуется найти неизвестную величину m. Подберем такую случайную величину ξ, чтобы М(ξ)=m и D(ξ)=b2. Для этого рассмотрим n случайных величин ξ1, ξ2, …, ξn,  распределение которых совпадает с распределением случайной величины ξ. Если n достаточно велико, то согласно центральной предельной теореме распределение суммы случайных величин

 

ρn 12+…+ξn, 

 

будет приближенно нормальным с параметрами:

 

а=n∙m,

 

σ2=n∙b2.

Из правила «трех сигм»

 

P{а–3∙σ<ξ<a+3∙σ}=0,997

 

следует, что

 

P{nm–3∙b∙√nn<nm+3∙b∙√n}=0,997.

В полученном соотношении разделим неравенство, стоящее в фигурной скобке, на n, и получим эквивалентное неравенство с той же вероятностью:

 

P{m–3∙b/√nn/n<m+3∙b/√n}=0,997.

 

Это соотношение можно записать в виде (*):

 

 

Полученное соотношение (*) определяет метод расчета m и оценку погрешности.  В самом деле, найдем n значений случайной величины ξ. Из выражения (*) видно, что среднее арифметическое этих значений будет приближенно равно m. С вероятностью Р=0,997 ошибка такого приближения не превосходит величины (3∙b/√n). Очевидно, что эта ошибка стремится к нулю с ростом n, что и требовалось доказать.

 

НА КАКИЕ ЭТАПЫ РАЗБИВАЕТСЯ РЕШЕНИЕ ЗАДАЧ МЕТОДОМ СТАТИСТИЧЕСКОГО МОДЕЛИРОВАНИЯ?

 

Решение любой задачи методом статистического моделирования состоит из следующих этапов.

 

ЭТАП 1. Разработка и построение структурной схемы процесса, выявление основных взаимосвязей процесса.

 

ЭТАП 2. Формальное описание процесса.

 

ЭТАП 3. Моделирование случайных явлений (случайных событий, случайных величин, случайных функций), сопровождающих функционирование исследуемой системы.

 

ЭТАП 4. Моделирование (с использованием данных, полученных на предыдущем этапе) функционирования системы: воспроизведение процесса в соответствии с разработанной структурной схемой и формальным описанием.

 

ЭТАП 5. Накопление результатов моделирования, их статистическая обработка, анализ и обобщение.

 

ЧТО ХАРАКТЕРНО ДЛЯ РЕЗУЛЬТАТОВ СТАТИСТИЧЕСКОГО МОДЕЛИРОВАНИЯ?

 

В отличие от описанных ранее математических моделей, результаты которых отражали устойчивое во времени поведение системы, результаты, получаемые при статистическом моделировании, подвержены экспериментальным ошибкам. Это означает, что любое утверждение, касающееся характеристик моделируемой системы, должно основываться на результатах соответствующих статистических проверок.

 

 

К ЧЕМУ СВОДИТСЯ МОДЕЛИРОВАНИЕ СЛУЧАЙНЫХ ЯВЛЕНИЙ В СТАТИСТИЧЕСКОМ МОДЕЛИРОВАНИИ?

 

Экспериментальные ошибки при статистическом моделировании в значительной степени зависят от точности моделирования случайных явлений, сопровождающих функционирование исследуемой системы. Известно, что при изучении вероятностных систем случайные явления могут интерпретироваться в виде случайных событий, случайных величин и случайных функций. Следовательно, моделирование случайных явлений сводится к моделированию случайных событий, случайных величин и случайных функций. Так как случайные события и случайные функции могут быть представлены через случайные величины, то и моделирование случайных событий и случайных функций производится с помощью случайных величин. В связи с этим рассмотрим сначала способы моделирования случайных величин.

 

КАКИЕ СУЩЕСТВУЮТ СПОСОБЫ  МОДЕЛИРОВАНИЯ СЛУЧАЙНЫХ ВЕЛИЧИН?

 

Для моделирования случайной величины необходимо знать ее закон распределения. Наиболее общим способом получения последовательности случайных чисел, распределенных по произвольному закону, является способ, в основе которого лежит их формирование из исходной последовательности случайных чисел, распределенных в интервале [0,1] по равномерному закону.

 

Равномерно распределенные в интервале [0,1] последовательности случайных чисел можно получить тремя способами:

 

1) использованием таблиц случайных чисел;

 

2) применением генераторов случайных чисел;

 

3) методом псевдослучайных чисел.

ТАБЛИЦЫ СЛУЧАЙНЫХ ЧИСЕЛ. При решении задачи без применения ЭВМ чаще всего используют таблицы случайных чисел. В таблицах случайных чисел случайные цифры имитируют значения дискретной случайной величины с равномерным распределением:

 

xi

0

1

2

3

9

pi

0,1

0,1

0,1

0,1

0,1

При составлении таких таблиц выполняется требование, чтобы каждая из этих цифр от 0; 1;...; 9 встречалась примерно одинаково часто и независимо от других с вероятностью p=0,1. Отметим, что таблицы случайных чисел составить не так просто. Они требуют тщательной проверки с помощью специальных статистических тестов.

 

ГЕНЕРАТОРЫ СЛУЧАЙНЫХ ЧИСЕЛ. При решении задач на ЭВМ для выработки случайных чисел, равномерно распределенных в интервале [0,1], могут применяться генераторы случайных чисел. Данные генераторы преобразуют результаты случайного физического процесса в двоичные числа. В качестве случайного физического процесса обычно используют собственные шумы (случайным образом меняющееся напряжение).

 

Недостатки данного способа получения случайных чисел следующие:

 

1) трудно проверить качество вырабатываемых чисел;

 

2) случайные числа не воспроизводимы (если их не запоминать), и, как следствие, нельзя повторить расчет на ЭВМ для исключения случайного сбоя.

 

МЕТОД ПСЕВДОСЛУЧАЙНЫХ ЧИСЕЛ. Получение псевдослучайных чисел с равномерным законом распределения заключается в выработке псевдослучайных чисел.

 

ЧТО ТАКОЕ ПСЕВДОСЛУЧАЙНЫЕ ЧИСЛА?

 

Псевдослучайные числа – это числа, полученные по какой-либо формуле и имитирующие значения случайной величины. Под словом «имитирующие» подразумевается, что эти числа удовлетворяют ряду тестов так, как если бы они были значениями этой случайной величины.

В ЧЕМ СОСТОИТ МЕТОД СЕРЕДИНЫ КВАДРАТОВ?

 

Первый алгоритм для получения псевдослучайных чисел предложил Дж. Нейман. Это так называемый метод середины квадратов, который заключается в следующем:

 

γ0 =0,9876, γ02= 0,97535376;

 

γ1 =0,5353, γ12=0,28654609;

 

γ2=0,6546, и т.д.

Алгоритм себя не оправдал: получилось больше, чем нужно, малых значений γi — случайных чисел.

 

В настоящее время разработано множество алгоритмов для получения псевдослучайных чисел. С использованием псевдослучайных чисел проводится большое число расчетов по методу Монте-Карло. От последовательности случайных чисел, равномерно распределенных в интервале [0,1], нетрудно перейти к последовательности случайных чисел с произвольно заданным законом распределения.

 

КАКОЕ СООТНОШЕНИЕ СВЯЗЫВАЕТ СЛУЧАЙНЫЕ ЧИСЛА С ЗАДАННЫМ ЗАКОНОМ РАСПРЕДЕЛЕНИЯ И СЛУЧАЙНЫЕ ЧИСЛА С РАВНОМЕРНЫМ РАСПРЕДЕЛЕНИЕМ НА ИНТЕРВАЛЕ [0,1]?

 

Существует основное соотношение, связывающее случайные числа с заданным законом распределения и случайные числа с равномерным законом распределения в интервале [0,1].

Суть его состоит в том, что для преобразования последовательности случайных чисел с равномерным законом распределения в интервале [0,1] в последовательность случайных чисел с заданной функцией распределения F(x), необходимо из совокупности случайных чисел с равномерным законом распределения в интервале [0,1] выбрать случайное число ξ, и решить уравнение:

 

F(x)                          (**)

 

относительно х.

 

Решение уравнения (**) представляет собой случайное число из совокупности случайных чисел, имеющих функцию распределения F(x).

 

КАК МОДЕЛИРУЮТ СЛУЧАЙНЫЕ ВЕЛИЧИНЫ С ЗАДАННОЙ ПЛОТНОСТЬЮ ВЕРОЯТНОСТИ?

 

В случае, когда вместо функции распределения F(x) задана плотность вероятности f(x), соотношение (**) принимает вид:

 

  x

  ∫ f(x)dx=ξ.   (***)

-∞

Для ряда законов распределения, наиболее часто встречающихся в реальной экономике, получено аналитическое решение уравнения (***), результаты которого приведены в таблице 1.

 

Таблица 1. Формулы для моделирования случайных величин.

 

 

Заметим, что параметры закона распределения Вейбула выбираются по таблицам.

 

МОДЕЛИРОВАНИЕ СЛУЧАЙНЫХ СОБЫТИЙ.

 

В ЧЕМ ЗАКЛЮЧАЕТСЯ МОДЕЛИРОВАНИЕ СЛУЧАЙНОГО СОБЫТИЯ?

 

Моделирование случайного события заключается в воспроизведении факта появления или непоявления случайного события в соответствии с заданной его вероятностью.

 

КАК МОДЕЛИРУЕТСЯ ПОЛНАЯ ГРУППА НЕСОВМЕСТНЫХ СОБЫТИЙ?

 

Моделирование полной группы несовместных событий

 

A1, A2, …, An,

 

с известными вероятностями 

 

P(Ai)=Pi,  i=1, …, n,

 

можно свести к моделированию дискретной случайной величины Y, имеющей закон распределения

 

P(yi)=Pi, i=1, …, n.

 

где вероятности ее возможных значений P(yi) связаны с вероятностями P(Ai) следующими равенствами:

 

P(yi)=P(Ai)=Pi, i=1, …, n.

Очевидно, что принятие в испытании дискретной случайной величиной Y возможного значения yi равносильно появлению в испытании события Ai.

 

КАК ПРАКТИЧЕСКИ РЕАЛИЗУЮТ СПОСОБ МОДЕЛИРОВАНИЯ ПОЛНОЙ ГРУППЫ НЕСОВМЕСТНЫХ СОБЫТИЙ?

 

При практической реализации данного способа на единичном отрезке числовой оси откладывают следующие интервалы (рисунок 1):

 

Δi=Pi, i=1, …, n.  

 

Рисунок 1. Интервалы Δi=Pi, i=1, …, n.

 

Затем вырабатывают равномерно распределенное на интервале [0,1] случайное число ξj и проверяют условие:

 

k-1          n

∑Pi ξj < ∑Pi .                     (Δ)

i=1          i=k

 

При выполнении условия (Δ) считают, что при испытании наступило событие Ak.

 

ЗАМЕЧАНИЕ 2. Нетрудно заметить, что моделирование факта появления одного события А, имеющего вероятность Р(А), сводится к моделированию полной группы двух несовместных событий, т.е. двух взаимно противоположных событий A и Ā с вероятностями Р(А) и Р(Ā)=1–Р(А).

 

ПОНЯТИЕ О МОДЕЛИРОВАНИИ СЛУЧАЙНЫХ ФУНКЦИЙ.

 

КАКИЕ СУЩЕСТВУЮТ СПОСОБЫ МОДЕЛИРОВАНИЯ СЛУЧАЙНЫХ ФУНКЦИЙ?

 

Для моделирования случайных функций используют два способа.

 

1. В первом из них применяются специальные физические датчики, вырабатывающие непрерывные реализации случайной функции. Физические датчики с помощью специальных фильтров преобразуют собственные шумы в случайные функции с заданными характеристиками.

 

2. В основе второго способа моделирования случайных функций лежит использование случайных чисел. При этом получают значения реализации моделируемой случайной функции в изолированных точках. Сущность способа состоит в том, что воспроизведение реализации случайной функции сводится к моделированию системы коррелированных случайных величин.

 

РАЗДЕЛ 2. МОДЕЛИРОВАНИЕ СИСТЕМ МАССОВОГО ОБСЛУЖИВАНИЯ С ИСПОЛЬЗОВАНИЕМ МЕТОДА МОНТЕ-КАРЛО.

 

Аналитические методы анализа СМО исходят из предположения, что входящие и исходящие потоки требований являются простейшими. Зависимости, используемые в этих методах для определения показателей качества обслуживания, справедливы лишь для установившегося режима функционирования СМО. Однако в реальных условиях функционирования СМО имеются переходные режимы, а входящие и исходящие потоки требований являются далеко не простейшими. В этих условиях для оценки качества функционирования систем обслуживания широко используют метод статистических испытаний (метод Монте-Карло).

Основой решения задачи исследования функционирования СМО в реальных условиях является статистическое моделирование входящего потока требований и процесса их обслуживания (исходящего потока требований).

 

КАКИЕ ИСХОДНЫЕ ДАННЫЕ ЗАДАЮТ ДЛЯ РЕШЕНИЯ ЗАДАЧИ СТАТИСТИЧЕСКОГО МОДЕЛИРОВАНИЯ СМО?

 

Для решения задачи статистического моделирования функционирования СМО должны быть заданы следующие исходные данные:

 

- описание СМО (тип, параметры,  критерии эффективности работы системы);

 

- параметры закона распределения периодичности поступления требований в систему;

 

- параметры закона распределения времени пребывания требования в очереди (для СМО с ожиданием);

 

- параметры закона распределения времени обслуживания требований в системе.

 

ИЗ КАКИХ ЭТАПОВ СОСТОИТ РЕШЕНИЕ ЗАДАЧИ СТАТИСТИЧЕСКОГО МОДЕЛИРОВАНИЯ ФУНКЦИОНИРОВАНИЯ СМО?

 

 Решение задачи статистического моделирования функционирования СМО складывается из следующих этапов.

 

ЭТАП 1. Вырабатывают равномерно распределенное случайное число ξi.

 

ЭТАП 2. Равномерно распределенные случайные числа преобразуют в величины с заданным законом распределения:

 

- интервал времени между поступлениями требований в систему;

 

- время ухода заявки из очереди (для СМО с ограниченной длиной очереди);

 

-  длительность времени обслуживания требования каналами обслуживания.

 

ЭТАП 3. Определяют моменты наступления следующих событий:

 

- поступление требования на обслуживание;

 

- уход требования из очереди;

 

- окончание обслуживания требования в каналах системы.

 

ЭТАП 4. Моделируют функционирование СМО в целом и накапливают статистические данные о процессе обслуживания.

 

ЭТАП 5. Устанавливают новый момент поступления требования в систему, и вычислительная процедура повторяется в соответствии с изложенным выше.

 

ЭТАП 6. Определяют показатели качества функционирования СМО путем обработки результатов моделирования методами математической статистики.

 

ПРИМЕР 1.  Методику решения задачи статистического моделирования рассмотрим на примере моделирования СМО с отказами.

 

Пусть система имеет два однотипных канала, работающих с отказами, причем моменты времени окончания обслуживания на первом канале обозначим через t1i, на втором канале – через t2i.

 

Закон распределения интервала времени между смежными поступающими требованиями задан плотностью распределения f1(tT).

 

Продолжительность обслуживания также является случайной величиной с плотностью распределения f2(tоб).

 

Процедура решения задачи будет выглядеть следующим образом:

 

ШАГ 1. Вырабатывают равномерно распределенное случайное число ξi.

 

ШАГ 2. Равномерно распределенное случайное число преобразуют в величины с заданным законом распределения, используя формулы таблицы 1. Определяют реализацию случайного интервала времени (ΔtTi) между поступлениями требований в систему.

 

ШАГ 3. Вычисляют момент поступления заявки на обслуживание:

 

ti= ti-1 + ΔtTi .

 

ШАГ 4. Сравнивают моменты окончания обслуживания предшествующих заявок на первом  t1(i-1) и втором  t2(i-1) каналах.

ШАГ 5. Сравнивают момент поступления заявки ti с минимальным моментом окончания обслуживания (допустим, что t1(i-1) < t2(i-1) ).

 

а) если [ti  - t1(i-1)]<0, то заявка получает отказ и вырабатывают новый момент поступления заявки описанным способом;

 

б) если [ti  - t1(i-1)]≥0, то происходит обслуживание.

 

ШАГ 6. При выполнении условия 5 б) определяют время обслуживания i-й заявки на первом канале Δt1(i-1)  путем преобразования случайной величины ξi в величину (время обслуживания i-й заявки) с заданным законом распределения.

 

ШАГ 7. Вычисляют момент окончания обслуживания i-й заявки на первом канале:

 

t1i = [t1(i-1) +Δt1(i-1)].

ШАГ 8. Устанавливают новый момент поступления заявки, и вычислительная процедура повторяется в соответствии с изложенным выше.

 

ШАГ 9. В ходе моделирования СМО накапливаются статистические данные о процессе обслуживания.

 

ШАГ 10. Определяют показатели качества функционирования системы путем обработки накопленных результатов моделирования методами математической статистики.

 

РАЗДЕЛ 3. ТЕОРЕТИЧЕСКИЕ ОСНОВЫ ОБРАБОТКИ РЕЗУЛЬТАТОВ СТАТИСТИЧЕСКОГО МОДЕЛИРОВАНИЯ.

 

Как было отмечено выше, результаты статистического моделирования экономических систем обрабатываются с помощью методов математической статистики. В данном разделе лекции мы изложим основные понятия математической статистики.

 

ЧТО ИЗУЧАЕТ МАТЕМАТИЧЕСКАЯ СТАТИСТИКА?

 

Математическая статистика изучает различные методы обработки и осмысления результатов многократно повторяемых случайных событий. Понятие случайного события определяется в теории вероятностей, обработка результатов также производится при помощи теоретически разработанных вероятностных методов. Задачей математической статистики является построение и оценка адекватности идеальных вероятностных моделей реальных процессов.

 

ПРИМЕР 2. В качестве иллюстрации рассмотрим следующий пример. Пусть имеется «реальный» игральный кубик. Обычно рассматривается модель, в соответствии с которой при бросании кубика вероятность выпадания любого числа очков от 1 до 6 одинакова и равна 1/6. Однако для «реального» кубика может случиться так, что при бросании его, например, 1000 раз, шестерка выпала в 300 случаях. В принципе,  такое может произойти и в рамках модели с вероятностью 1/6. Однако здравый смысл подсказывает то, что,  скорее всего, у кубика смещен центр тяжести. Это означает, что в дальнейшем имеет смысл использовать другую гипотезу относительно вероятности выпадания шестерки при бросании данного кубика. Например, довольно логично предположить, что эта вероятность близка к 0,3. Для процесса построения и применения моделей характерно следующее обстоятельство: чем больше данных, тем точнее, адекватнее модель. В полной мере это относится к статистическим моделям. И в приведенном выше примере с кубиком вывод делается на основе многократного повторения испытания (бросания кубика).

 

Поскольку мы имеем дело со случайными событиями, то рекомендации, полученные на основе статистических соображений, всегда носят вероятностный характер. Однако это ни в коей мере не снижает их ценности. Напротив, вероятностный характер модели является показателем близости к описываемой реальной ситуации, которая зачастую слишком сложна для детерминированного описания. Приведем несколько примеров практических задач, требующих применения статистических методов.

 

ПРИМЕР 3. Пусть по некоторому вопросу в городе опрошено N человек, из них М дали положительный ответ и (N–M) — отрицательный. Как по этим данным оценить долю горожан, дающих положительный ответ? Понятно, что эта доля близка к M/N, но в какой степени?

 

ЗАМЕЧАНИЕ 3. Имеется еще немаловажный вопрос о том, каким образом правильно организовать опрос (чтобы учесть мнение различных групп населения), но здесь мы этой проблематики касаться не будем.

 

ПРИМЕР 4. Предположим, что на некоторой фирме применили нововведение: внедрили новую технологию, перешли на выпуск новой продукции и т. п. Для простоты будем считать, что регистрируемыми данными являются значения производительности труда в течение дня. Эта производительность зависит от ряда случайных факторов и, следовательно, является случайной величиной. Пусть имеется последовательность чисел – производительность труда за некоторый срок. Например: 7, 11, 10, 6, 6, 9, 9, 10, 5, 6, 10, 7 (в этот момент процесс производства был изменен, последующие данные относятся к новой ситуации), 11, 7, 9, 8, 10, 9. Как по имеющимся числовым данным определить, достигнуто ли повышение производительности труда?

 

ПРИМЕР 5. Требуется дать прогноз на изменение значения некоторой величины — курса доллара, спроса на продукцию, числа зрителей на стадионе и т. п. Основными исходными данными здесь являются значения, которые принимала изучаемая величина в прошлом.

 

КАКИМИ СПОСОБАМИ ПРОВОДЯТ ПЕРВИЧННУЮ ОБРАБОТКУ ДАННЫХ?

 

Обработка данных и получение на ее основе каких-либо рекомендаций относительно принятия того или иного управленческого решения — это процесс, вообще говоря, многоэтапный. Обычно полученные в результате наблюдений данные представляют собой набор чисел. Просматривая этот набор, как правило, трудно выявить какую-либо закономерность. Поэтому данные подвергают некоторой первичной обработке, целью которой является упрощение дальнейшего анализа. Мы рассмотрим подробно один из возможных способов.

 

ЧТО ТАКОЕ ВЫБОРКА?

 

Рассмотрим данные, полученные в результате регистрации значений некоторой случайной величины, — это набор чисел:

 

x1, x2, …, xn .

 

Отметим, что некоторые значения в полученном наборе чисел могут совпадать. Этот набор чисел называется выборкой.

 

Дальнейшие действия зависят от того, как много в выборке РАЗЛИЧНЫХ чисел. Если мы имеем дело с дискретной случайной величиной, то различных чисел немного; если с непрерывной случайной величиной, то могут и все числа оказаться различными. Поэтому далее рассмотрим два этих случая по отдельности.

 

ДИСКРЕТНЫЙ СЛУЧАЙ.

 

ЭТАП 1. Первый этап обработки выборки – это составление вариационного ряда.

 

ЧТО ТАКОЕ ВАРИАЦИОННЫЙ РЯД?

 

Вариационный ряд получают из выборки так: среди всех чисел xi , i=1, …, n, отбирают различные числа и располагают их в порядке возрастания:

 

α1, α2, …, αm,

 

где α12< …<αm.

ЭТАП 2. Следующий этап обработки выборки – это составление дискретной таблицы частот.

 

ЧТО ТАКОЕ ДИСКРЕТНАЯ ТАБЛИЦА ЧАСТОТ?

 

Дискретная таблица частот составляется следующим образом.

 

В первой строке этой таблицы располагают значения вариационного ряда:

 

α1, α2, …, αm.

 

Во второй строке этой таблицы, в соответствующих столбцах, выписывают частоты:

 

k1, k2, …, km.

 

Величина ki  (i=1, …, m) – это  число измерений, в которых наблюдалось соответствующее значение αi (i=1, …, m).  

 

В третьей строке этой таблицы, в соответствующих столбцах, выписывают относительные частоты:

 

n1, n2, …, nm.

 

Относительные частоты ni (i=1, …, m) вычисляются по формуле:

 

ni=ki/n,       i=1, …, m.   

 

В итоге получают следующую таблицу:

 

α1

α2

αm

k1

k2

km

n1=k1/n

n2=k2/n

nm=km/n

 

ЧТО СЛУЖИТ ГРАФИЧЕСКОЙ ИЛЛЮСТРАЦИЕЙ ДИСКРЕТНОЙ ТАБЛИЦЫ ЧАСТОТ?

 

Графической иллюстрацией дискретной таблицы частот является столбиковая диаграмма (рисунок 2).

Рисунок 2. Столбиковая диаграмма.

 

ЗАМЕЧАНИЕ 4. Частоты и относительные частоты пропорциональны, поэтому при построении столбиковой диаграммы по вертикальной оси можно указывать значения либо относительных частот ni, либо частот ki — визуальное восприятие от этого не зависит.

 

ПРИМЕР 6. Пусть нашей задачей является выявление картины успеваемости студентов, сдавших экзамен по курсу «Математическое моделирование экономических систем». На курсе 56 человек. Полученные студентами оценки представляют собой (в порядке алфавитного списка) следующий набор чисел:

 

3, 4, 5, 4, 3, 3, 5, 4, 3, 5, 5, 2, 3, 5, 3, 5, 3, 5, 4, 4, 3, 3, 4, 3, 4, 3, 3, 5, 3, 3, 4, 3, 4, 3, 5, 3, 4, 4, 3, 5, 3, 3, 5, 4, 2, 5, 3, 4, 2, 3, 5, 4, 3, 5, 3, 5.

 

Это и есть исходные данные — выборка. Числа, составляющие выборку, представляют собой реализации случайной величины — оценки на экзамене.

 

Составление вариационного ряда не представляет сложностей. Вот он:

 

2, 3, 4, 5.

Теперь надо подсчитать, сколько раз встречается каждая из оценок. Это можно сделать непосредственно, однако существует и другой способ. Выписываются значения 2, 3, 4, 5 по одному на каждой строке. После этого выборка просматривается: одно число за другим, и для каждого значения ставится вертикальный отрезок в соответствующей строке. После этого подсчитывается число отрезков в каждой строке. В данном случае имеем (рисунок 3):

 

Рисунок 3. Подсчет частот вариационного ряда.

 

Дискретная таблица частот выглядит следующим образом:

 

2

3

4

5

3

24

14

15

3/56≈0,054

24/56≈0,429

14/56=0,25

15/56≈0,268

Здесь в последней строке таблицы выписаны относительные частоты, полученные при делении частот на число измерений n=56. Столбиковая диаграмма, иллюстрирующая полученную таблицу, изображена на рисунке 4.

 

 

Рисунок 4. Столбиковая диаграмма.

 

НЕПРЕРЫВНЫЙ СЛУЧАЙ.

 

Если число различных значений в выборке велико, вычислять частоту каждого из них не имеет большого смысла.

 

ПРИМЕР 7. Например, если ВСЕ значения в выборке различны, то дискретная таблица частот имеет следующий вид:

 

α1

α2

αm

1

1

1

1/n

1/n

1/n

Понятно, что такая таблица не добавляет наглядности.

 

Поэтому поступают следующим образом. Весь промежуток изменения значений выборки, от минимального до максимального, разбивают на интервалы. После этого подсчитывают число значений из выборки, попадающих в каждый интервал (частоты), а затем — относительные частоты. В результате получаем интервальную таблицу частот.

 

КАК СОСТАВЛЯЕТСЯ ИНТЕРВАЛЬНАЯ ТАБЛИЦА ЧАСТОТ?

 

Интервальная таблица частот составляется следующим образом.

 

В первой строке этой таблицы располагают интервалы разбиения:

 

1; μ2], (μ2; μ3], …, (μm; μm+1].

 

Во второй строке этой таблицы, в соответствующих столбцах, выписывают частоты:

 

k1, k2, …, km.

 

Величина ki  (i=1, …, m) – это количество значений, попавших на i-й интервал i; μi+1], i=1, …, m.

 

В третьей строке этой таблицы, в соответствующих столбцах, выписывают относительные частоты падания значения на i-интервал:

 

n1, n2, …, nm.

 

Относительные частоты ni (i=1, …, m) вычисляются по формуле:

 

ni=ki/n,       i=1, …, m. 

 

В итоге получают следующую таблицу:

 

1; μ2]

2; μ3]

m; μm+1]

k1

k2

km

n1=k1/n

n2=k2/n

nm=km/n

 

Здесь n — число всех измерений, m — число интервалов, ki — количество чисел, приходящихся на i-й интервал, ni=ki/n — относительная частота попадания в i-й интервал. Интервалы обычно берут одинаковой длины, хотя это и не обязательно.

 

ЧТО СЛУЖИТ ГРАФИЧЕСКОЙ ИЛЛЮСТРАЦИЕЙ ИНТЕРВАЛЬНОЙ ТАБЛИЦЫ ЧАСТОТ?

 

Графической иллюстрацией интервальной таблицы частот является ГИСТОГРАММА (рисунок 5).

 

 

Рисунок 5. Гистограмма.

 

ЧТО ТАКОЕ ГИСТОГРАММА?

 

Гистограмма представляет собой ступенчатую линию; основанием i-й ступеньки является интервал i; μi+1]; а площадь этой ступеньки равна ni.

 

ЗАМЕЧАНИЕ 5. Число интервалов m выбирают из соображений наглядности получающейся гистограммы. Обычно m лежит в пределах от 5 до 15.

 

ЗАМЕЧАНИЕ 6.  Если интервалы i; μi+1] выбраны одинаковой длины, то площади ступенек гистограммы пропорциональны их высотам. И в этом случае можно отмечать на оси ординат просто частоты ki.

 

ПРИМЕР 8. Предположим, что студенты некоторой группы, состоящей из 25 человек, написали контрольную работу. Каждый студент получил определенное количество баллов. Приведем эти баллы (в порядке алфавитного списка группы):

 

75, 145, 150, 180, 125, 150, 150, 165, 95, 135, 130, 70, 130, 105, 135, 135, 100, 160, 60, 85, 120, 60, 145, 150, 135.

Требуется построить интервальную таблицу частот и гистограмму.

 

РЕШЕНИЕ. Нетрудно найти среди приведенных чисел минимальное и максимальное — это числа 60 и 180. Таким образом, все значения лежат на отрезке [60;180]. Разобьем этот отрезок, например, на m=6 равных частей. После этого подсчитаем число значений, попавших в каждый интервал. Для этого воспользуемся методом, описанным в примере 6. Результаты вычисления приведены на рисунке 6.

 

Рисунок 6. Подсчет значений, попавших в интервалы разбиения.

 

Построим теперь интервальную таблицу частот:

 

[60; 80]

(80; 100]

(100; 120]

(120; 140]

(140; 160]

(160; 180]

4

3

2

7

7

2

4/25=0,16

3/25=0,12

2/25=0,08

7/25=0,28

7/25=0,28

2/25=0,08

Соответствующая гистограмма изображена на рисунке 7.

 

Рисунок 7. Гистограмма.

 

На вертикальной оси проставлены частоты (см.: замечание 6).

 

Таким образом, на простых примерах мы рассмотрели подходы к решению первой задачи математической статистики: указанию методов сбора и группировки статистических сведений, которые получены в результате экспериментов или наблюдений.

 

На практике сплошное исследование (каждого объекта из интересующей нас совокупности) проводят крайне редко. К тому же если эта совокупность содержит большое число объектов или исследование объекта требует нарушения его функционального стандарта, то сплошное исследование нереально. В таких случаях из всей совокупности случайно отбирают ограниченное число объектов и подвергают их исследованию. Введем основные понятия, связанные с выборками.

 

ЧТО ТАКОЕ ГЕНЕРАЛЬНАЯ СОВОКУПНОСТЬ, ОБЪЕМ ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ?

 

Генеральной совокупностью называется совокупность объектов, из которых производится выборка. Число объектов в совокупности называется ее объемом.

 

ЧТО ТАКОЕ ВЫБОРОЧНАЯ СОВОКУПНОСТЬ, ОБЪЕМ ВЫБОРКИ?

 

Выборочной совокупностью (выборкой) называется совокупность случайно отобранных объектов из генеральной совокупности. Число объектов в выборочной совокупности называется объемом выборки.

 

ПРИМЕР. Пусть из 2000 изделий отобрало для обследования  100 изделий. Тогда объем генеральной совокупности N=2000,  а объем выборки n=100.

 

ЧТО ТАКОЕ ПОВТОРНАЯ ВЫБОРКА, БЕСПОВТОРНАЯ ВЫБОРКА?

 

Выборку можно осуществлять двумя способами. Если после исследования объект из выборки возвращается в генеральную совокупность, то такая выборка называется повторной; если объект не возвращается в генеральную совокупность, то выборка называется бесповторной.

 

КАКАЯ ВЫБОРКА НАЗЫВАЕТСЯ РЕПРЕЗЕНТАТИВНОЙ?

Выборка называется репрезентативной (представительной), если по ее данным можно достаточно уверенно судить об интересующем признаке генеральной совокупности.

КАКИЕ СУЩЕСТВУЮТ СПОСОБЫ ОТБОРА?

Различают два способа отбора: без расчленения  генеральной совокупности на части и с расчленением. 

КАКИЕ РАЗНОВИДНОСТИ ОТБОРА ОТНОСЯТСЯ К ПЕРВОМУ СПОСОБУ?

К первому способу относятся простые случайные отборы (либо повторный, либо бесповторный), когда объекты извлекают по одному из всей генеральной совокупности; такой отбор можно производить с использованием таблицы случайных чисел. 

КАКИЕ РАЗНОВИДНОСТИ ОТБОРА ОТНОСЯТСЯ КО ВТОРОМУ СПОСОБУ?

Второй способ отбора включает в себя следующие  разновидности, соответствующие способам расчленения генеральной совокупности: типический, механический, серийный.

КАКОЙ ОТБОР НАЗЫВАЕТСЯ ТИПИЧЕСКИМ?

Отбор, при котором объекты отбираются из каждой «типической» части генеральной совокупности, называется типическим.

Например, отбор деталей из продукции каждого станка, а не из их общего количества,  является типическим.

КАКОЙ ОТБОР НАЗЫВАЕТСЯ МЕХАНИЧЕСКИМ?

Если генеральную совокупность делят на число групп, равное объему выборки, с последующим отбором из каждой группы по одному объекту, то такой отбор называется механическим.

КАКОЙ ОТБОР НАЗЫВАЕТСЯ СЕРИЙНЫМ?

Серийным называется отбор, при котором объекты отбираются не по одному, а сериями; этот способ используется, когда исследуемый признак имеет незначительные колебания в различных сериях.

На практике часто употребляется комбинирование указанных выше способов отбора.

Например, генеральную совокупность разбивают на серии одинакового объема, затем случайным образом отбирают несколько серий и в завершение случайным извлечением отдельных объектов составляют выборку.

Конкретная комбинация способов отбора объектов из генеральной совокупности определяется требованием репрезентативности выборки.

 

ЧТО ТАКОЕ СТАТИСТИЧЕСКОЕ РАСПРЕДЕЛЕНИЕ ВЫБОРКИ?

 

Пусть из генеральной совокупности извлечена выборка объема n, в которой значение α1 некоторого исследуемого признака Х наблюдалось k1 раз, значение α2 наблюдалось k2 раз, ..., значение αm наблюдалось km раз.

 

Значения αi называются вариантами, а их последовательность, записанная в возрастающем порядке, называется вариационным рядом.

 

Числа ki называются частотами, а их отношения к объему выборки n называются относительными частотами:

 

ni=ki/n.

 

Нетрудно видеть, что выполняются следующие равенства:

 

m

ki=n;

i=1

 

m

ni=1.

i=1

ЧТО ТАКОЕ МОДА ВЫБОРКИ?

 

Модой Мо называется варианта, имеющая наибольшую частоту.

 

ЧТО ТАКОЕ МЕДИАНА ВЫБОРКИ?

 

Медианой Ме называется варианта, которая делит вариационный ряд на две части с одинаковым числом вариант в каждой.

 

Если число вариант нечетно, т.е. m=2s+1, то медиана определяется равенством:

 

Mes+1.

 

Если же число вариант четно (m=2s), то медиана вычисляется по формуле:

 

Me=ss+1)/2.

 

ЧТО ТАКОЕ РАЗМАХ ВАРЬИРОВАНИЯ?

 

Размахом варьирования называется разность между максимальной и минимальной вариантами или длина интервала, которому принадлежат все варианты выборки:

 

R= αmaxαmin.

ПЕРЕЧЕНЬ ВАРИАНТ И СООТВЕТСТВУЮЩИХ ИМ ЧАСТОТ НАЗЫВАЕТСЯ СТАТИЧЕСКИМ РАСПРЕДЕЛЕНИЕМ ВЫБОРКИ. 

 

ЗАМЕЧАНИЕ. Здесь имеется аналогии с законом распределения случайной  величины: в теории вероятностей это соответствие между возможными значениями случайной величины и их вероятностями, а в математической статистике – это соответствие между наблюдаемыми вариантами и их частотами (относительными частотами).

 

ЧТО ВКЛЮЧАЕТ АНАЛИЗ СТАТИСТИЧЕСКИХ ДАННЫХ?

 

Вторая задача математической статистики – это разработка методов анализа статистических данных.

 

Анализ статистических данных включает:

 

- оценки неизвестных вероятностей событий;

 

- оценки неизвестных функций распределения и параметров распределения;

 

- оценки неизвестных зависимостей случайной величины от других случайных величин;

 

- проверку статистических гипотез о виде и величинах параметров неизвестного распределения.

 

Подробнее с элементами математической статистики можно ознакомиться, например, в учебнике [3].

 

СПИСОК РЕКОМЕНДУЕМОЙ ЛИТЕРАТУРЫ.

 

[1] Бережная Е.В., Бережной В.И. Математические методы моделирования экономических  систем: Учеб. пособие. — 2-е изд., перераб. и доп. — М.: Финансы и статистика, 2006. - 432 с.: ил.

 

 [2] Колемаев В.А. Экономико-математическое моделирование. Моделирование макроэкономических процессов и систем.  М.: ЮНИТИ-ДАНА, 2005. - 295 с.

[3] Красс М.С., Чупрынов Б.П. Основы математики и ее приложения в экономическом образовании: Учебник. 4-е изд., испр. – М.: Дело, 2003. – 688 с.

 

[4] Фомин Г. П. Математические методы и модели в коммерческой деятельности: Учебник. — 2-е изд., перераб. и доп. — М.: Финансы и статистика, 2005. — 616 с: ил.

 

[5] Шикин Е. В., Чхартишвили А. Г. Математические методы и модели в управлении: Учеб. пособие. — 3-е изд. — М.: Дело, 2004. — 440 с. — (Серия «Классический университетский учебник»).