Метод обработки данных "Говоруном"

Подтасовка фактов!

Превозмогая свое желание не раскрывать до конца свои карты я все-таки сделаю ЭТО. И расскажу всем как считается вся эта галиматья, которую Вы можете лицезреть почти ежедневно. Итак.

Что такое статистика? Ну вопрос риторический и обжалованию не подлежит. Мы все считаем себя уникальными и непредсказуемыми. Мол входим в ЧАТ когда можем, когда захотим и можем говорить а можем не говорить. Хочу Вас разочаровать, Увы:. Ваша непредсказуемость, впрочем как и моя это всего лишь вероятностная модель. Не бывает абсолютной истины или абсолютной лжи. Есть только максимально возможная ложь и правда. А посему Ваше появление здесь вполне можно описать какими-то законами.
Все вокруг - это ложь, игра моего разума - Как говорил всем известный граф:

       Ну-с, приступим. Что такое сессия? Это промежуток времени между входом и выходом из ЧАТа. Под временем входа в ЧАТ подразумевается время, когда в логе появляется фраза об оном событии, или в отдельных случаях время первой произнесенной фразы. Под временем выхода - собственно появление фразы об оном, или время последней фразы при разрыве связи и перерегистрации НИКа (некорректный выход). Для дальнейших расчетов Хинта и прочих параметров производится предварительная очистка данных. Не принимаются в обработку сессии, длящиеся менее минуты, сессии при которых не было произнесено ни слова. Кроме того после всей обработки отсеиваются из таблицы НИКи, у которых количество сессий меньше 10 и объем сообщений меньше 10 Кбайт а также НИКи, отсутствовавшие в ЧАТе на протяжение последнего месяца.
       Что такое Хинт? Как видите таблица состоит из нескольких колонок. При вычислении Хинта важны первые две. Количество символов на протяжении сессии в секунду - я думаю вполне понятно, вторая колонка тоже. Теперь: считается что обе колонки равноправны по своему вкладу в Хинт и могут принять максимальное значение - 0,5. Это как оценка судейской коллегии. Чем ближе ты подбираешься к максимальным значениям в соответствующей колонке - тем выше твой Хинт или, как я ее называю говорливость :). Эти два значения складываются и получается Хинт. Все просто.
       Если Вам не интересны математические выкладки расчета - можете дальше не читать..

Х-м-м-м, Вы дочитали до этого момента... ну Вам же хуже :)
Теперь собственно о самой сухой в мире вещи - о математике. При рассчетах применяется метод статистической обработки данных с многократными наблюдениями и очисткой данных по трем сигмам. Активное участие в нем принимают понятия математического ожидания, дисперсии и законов распределения. Впрочем как и объем выборки - в данном случае почти эквивалентен количеству сессий.

Итак. После расчета первых двух колонок производится вычисление математического ожидания как среднего арифметического, и значения дисперсии, или рассеивания результатов для каждой из них в отдельности. Делается допущение, что закон распределения вероятностной оценки нормален, но при этом отбрасываются НИКи с количеством сессий меньшими 10 как НИКи, для которых статистическая оценка будет заведомо ложной. Кроме того не производится центрирование выборки - и не участвуют корректирующие коэффициенты. После это вступает в действие статистическая очистка выборки по правилу 3 сигм (все результаты должны лежать в диапазоне от Xсред - 3*sigma до Xсред+3*sigma) где sigma - среднеквадратичное отклонение для выборки НИКа. Обработка производится до тех пор, пока не будет отброшенных результатов. (если результат превышает заданный предел он отбрасывается).Т.е. на данном этапе мы получаем статистическую оценку первой и второй колонки для НИКов с вероятностью правдоподобия 0,95. Производим повторную отбраковку НИКов с количеством результирующих сессий меньших 10. Кроме того отбрасываем НИКи, у которых объем сессий менее 10 тыс. Символов (последнее это моя прихоть чтобы не пробивались НИКи с очень малым стажем жизни и случайные НИКи). Вот теперь мы готовы к самому страшному - расчету Хинта!
У нас есть две колонки, или два массива для расчета хинтов. Далее находим максимальный элемент в каждом из массивов и выражаем все результаты как Xi/Xmax (Производим нормирование значений по максимальному элементу). Для того чтобы сгруппировать результаты и получить хинт применяется теория экспертных оценок. Теория основана на том, что при наличии определенных критериев они имеют различную значимость или вес, соответственно осуществляют различный вклад в результат. Вследствие отсутствия экспертов :))))) берем 50/50. Хинт рассчитывается по формуле: Xi*Kp1+Yi*Kp2. В нашем случае Kp1=Kp2=0.5; Вот и все. При расчете хинта недельной давности выборка берется по дате меньшей или равной дате недельной давности.. Ну а реализация всего этого - дело техники :)

Вопросики и уточнения принимаются по адресу: смотри ниже.

Между нами птичками, я сам не знаю что получается после результатов обработки :)
Для желающих посмотреть скрипты можно постить сообщения на этот же адрес

материалы подготовлены White_Shadow