Превозмогая свое желание не раскрывать до конца свои карты
я все-таки сделаю ЭТО. И расскажу всем как считается вся эта галиматья,
которую Вы можете лицезреть почти ежедневно. Итак.
      
Что такое статистика? Ну вопрос риторический и обжалованию
не подлежит. Мы все считаем себя уникальными и непредсказуемыми. Мол входим
в ЧАТ когда можем, когда захотим и можем говорить а можем не говорить. Хочу
Вас разочаровать, Увы:. Ваша непредсказуемость, впрочем как и моя это всего лишь
вероятностная модель. Не бывает абсолютной истины или абсолютной лжи. Есть
только максимально возможная ложь и правда. А посему Ваше появление здесь
вполне можно описать какими-то законами.
      
Все вокруг - это ложь, игра моего разума - Как говорил всем известный граф:
      
Ну-с, приступим. Что такое сессия? Это промежуток времени
между входом и выходом из ЧАТа. Под временем входа в ЧАТ подразумевается
время, когда в логе появляется фраза об оном событии, или в отдельных случаях
время первой произнесенной фразы. Под временем выхода - собственно появление
фразы об оном, или время последней фразы при разрыве связи и перерегистрации
НИКа (некорректный выход). Для дальнейших расчетов Хинта и прочих параметров
производится предварительная очистка данных. Не принимаются в обработку
сессии, длящиеся менее минуты, сессии при которых не было произнесено ни
слова. Кроме того после всей обработки отсеиваются из таблицы НИКи, у которых
количество сессий меньше 10 и объем сообщений меньше 10 Кбайт а также НИКи,
отсутствовавшие в ЧАТе на протяжение последнего месяца.
      
Что такое Хинт? Как видите таблица состоит из нескольких колонок.
При вычислении Хинта важны первые две. Количество символов на протяжении
сессии в секунду - я думаю вполне понятно, вторая колонка тоже. Теперь:
считается что обе колонки равноправны по своему вкладу в Хинт и могут принять
максимальное значение - 0,5. Это как оценка судейской коллегии. Чем ближе ты
подбираешься к максимальным значениям в соответствующей колонке - тем выше
твой Хинт или, как я ее называю говорливость :). Эти два значения складываются
и получается Хинт. Все просто.
      
Если Вам не интересны математические выкладки расчета - можете дальше не
читать..
      
Х-м-м-м, Вы дочитали до этого момента... ну Вам же хуже :)
      
Теперь собственно о самой сухой в мире вещи - о математике.
При рассчетах применяется метод статистической обработки данных с
многократными наблюдениями и очисткой данных по трем сигмам. Активное
участие в нем принимают понятия математического ожидания, дисперсии и законов
распределения. Впрочем как и объем выборки - в данном случае почти
эквивалентен количеству сессий.
      
Итак. После расчета первых двух колонок производится
вычисление математического ожидания как среднего арифметического, и значения
дисперсии, или рассеивания результатов для каждой из них в отдельности.
Делается допущение, что закон распределения вероятностной оценки нормален,
но при этом отбрасываются НИКи с количеством сессий меньшими 10 как НИКи,
для которых статистическая оценка будет заведомо ложной. Кроме того не
производится центрирование выборки - и не участвуют корректирующие
коэффициенты. После это вступает в действие статистическая очистка выборки
по правилу 3 сигм (все результаты должны лежать в диапазоне от
Xсред - 3*sigma до Xсред+3*sigma) где sigma - среднеквадратичное отклонение
для выборки НИКа. Обработка производится до тех пор, пока не будет отброшенных
результатов. (если результат превышает заданный предел он отбрасывается).Т.е.
на данном этапе мы получаем статистическую оценку первой и второй колонки для
НИКов с вероятностью правдоподобия 0,95. Производим повторную отбраковку
НИКов с количеством результирующих сессий меньших 10. Кроме того отбрасываем
НИКи, у которых объем сессий менее 10 тыс. Символов (последнее это моя прихоть
чтобы не пробивались НИКи с очень малым стажем жизни и случайные НИКи). Вот
теперь мы готовы к самому страшному - расчету Хинта!
      У нас есть две колонки, или два массива для
расчета хинтов. Далее находим максимальный элемент в каждом из массивов
и выражаем все результаты как Xi/Xmax (Производим нормирование значений по
максимальному элементу). Для того чтобы сгруппировать результаты и получить
хинт применяется теория экспертных оценок. Теория основана на том, что при
наличии определенных критериев они имеют различную значимость или вес,
соответственно осуществляют различный вклад в результат. Вследствие отсутствия
экспертов :))))) берем 50/50. Хинт рассчитывается по формуле: Xi*Kp1+Yi*Kp2.
В нашем случае Kp1=Kp2=0.5; Вот и все. При расчете хинта недельной давности
выборка берется по дате меньшей или равной дате недельной давности..
Ну а реализация всего этого - дело техники :)
Вопросики и уточнения принимаются по адресу: смотри ниже.
Между нами птичками, я сам не знаю что
получается после результатов обработки :)
Для желающих посмотреть скрипты можно постить сообщения на этот же адрес
|