-
Notifications
You must be signed in to change notification settings - Fork 0
07.08.2012
-1) Что есть сейчас или немножко скучной теории и мыслей: -1.1) И самое главное - это набросок т.з. которое будет изменяться и переписсыватся. А также из этого наброска будет вырастать сам текст ее любимой. (см @Система для отслеживания спама на другой странице). 1.2)
-
что будет делать система: по сути - имитация БД твиттера, только с определенной задержкой и имея в наличии небольшое количество пользователей. а также имплементация некоторого функционала для будущего развития событий (см -1.1) :)
-
Настройки и ключевые понятия: 1.1) Параметр глубины обхода группы людей. По сути - количество людей по которым пройдется паук и будет их отслеживать.
(#info сейчас только функция в engine): обхода людей и преобразования (+ #!info небольшая предварительная работа, над объектами из tweepy в нашу модель, в принципе, от нашей модели можно и отказатся, имея ввиду модель объектов в БД. Кстати в script.js лежат и скрипты по преобразованию так и различным аналитическим потсчетам, кстати язык позволяет еще и проводить исследования. Но учтите - это js и исполняется на уровне mongo. Если в че то лучше тогда исполнятель v8 приделать из ноды или из хромиума, как-то так...) Говоришь ей откуда идтить, а она выкачиваает одного человека, потом всех кто вокруг него, потом всех кто вокруг них и т.д.
1.2) Параметр частоты обновления информации о человеке.
которая создает разницу между двумя объектами. (И я себя спрашивал, зачем ж это через рефлекшн-то! Что означает, дескать она может работать и с объектами tweepy. И вообще с любым объектом. А еще визуализатор было бы клево сделать объектов. И классификатор на основе разниц). По сути сравниватель двух объектов - смотрит его каждое поле и потом хреначит разницу. При этом разница может быть как в виде массива, так и в виде строчки и прочее. Возвращает соответственно вот что:
- для массивов - интерсекцию, что у левого что у правого. #r_todo всякую ересь.
- для интов - + - че каво
- для непонятных объектов че слева че справа.
Короче глядите diff_machine.create_difference и усе поймете. Она написана немного корявенько но я все камментил как мог.
- Че хотелось бы в будующем: Так как есть много данных, то можно строить дополнительную аналитику.
2.1) Сделать построение графа так как сказанно в статье. Реализовать логику, которая отражена в статье.
Сделал реализацию некоей модели описанной в статье. Сделал метод тематической классификации текстов (почти, еще не тестил).
2.2) Сделать разные статистические функции для самих юзверев, опираясь на их параметры и на их веса, такие как: отношения [фолловеров друзей упоминаний] и всех остальных (вообще) связей и их различных весов. отношения ретвитов, тем, людей и прочего связанного со сказанным
2.3) Сделать порт в графовую дб с заточкой на мысли выше и то о чем говорится в статье. В будущем и после тестов.
2.4) Сделать некоторый костяк системы в который можно будет вставлять типажи людей. В виде совокупности графовых и текстовых параметров. А также типажи сообщений.