Skip to content
AlexeyProskuryakov edited this page Aug 7, 2012 · 2 revisions

-1) Что есть сейчас или немножко скучной теории и мыслей: -1.1) И самое главное - это набросок т.з. которое будет изменяться и переписсыватся. А также из этого наброска будет вырастать сам текст ее любимой. (см @Система для отслеживания спама на другой странице). 1.2)

  1. что будет делать система: по сути - имитация БД твиттера, только с определенной задержкой и имея в наличии небольшое количество пользователей. а также имплементация некоторого функционала для будущего развития событий (см -1.1) :)

  2. Настройки и ключевые понятия: 1.1) Параметр глубины обхода группы людей. По сути - количество людей по которым пройдется паук и будет их отслеживать.

Подсистема scrap

(#info сейчас только функция в engine): обхода людей и преобразования (+ #!info небольшая предварительная работа, над объектами из tweepy в нашу модель, в принципе, от нашей модели можно и отказатся, имея ввиду модель объектов в БД. Кстати в script.js лежат и скрипты по преобразованию так и различным аналитическим потсчетам, кстати язык позволяет еще и проводить исследования. Но учтите - это js и исполняется на уровне mongo. Если в че то лучше тогда исполнятель v8 приделать из ноды или из хромиума, как-то так...) Говоришь ей откуда идтить, а она выкачиваает одного человека, потом всех кто вокруг него, потом всех кто вокруг них и т.д.

1.2) Параметр частоты обновления информации о человеке.

Подсистема diff_machine

которая создает разницу между двумя объектами. (И я себя спрашивал, зачем ж это через рефлекшн-то! Что означает, дескать она может работать и с объектами tweepy. И вообще с любым объектом. А еще визуализатор было бы клево сделать объектов. И классификатор на основе разниц). По сути сравниватель двух объектов - смотрит его каждое поле и потом хреначит разницу. При этом разница может быть как в виде массива, так и в виде строчки и прочее. Возвращает соответственно вот что:

  • для массивов - интерсекцию, что у левого что у правого. #r_todo всякую ересь.
  • для интов - + - че каво
  • для непонятных объектов че слева че справа.

Короче глядите diff_machine.create_difference и усе поймете. Она написана немного корявенько но я все камментил как мог.

  1. Че хотелось бы в будующем: Так как есть много данных, то можно строить дополнительную аналитику.

2.1) Сделать построение графа так как сказанно в статье. Реализовать логику, которая отражена в статье.

Сделал реализацию некоей модели описанной в статье. Сделал метод тематической классификации текстов (почти, еще не тестил).

2.2) Сделать разные статистические функции для самих юзверев, опираясь на их параметры и на их веса, такие как: отношения [фолловеров друзей упоминаний] и всех остальных (вообще) связей и их различных весов. отношения ретвитов, тем, людей и прочего связанного со сказанным

2.3) Сделать порт в графовую дб с заточкой на мысли выше и то о чем говорится в статье. В будущем и после тестов.

2.4) Сделать некоторый костяк системы в который можно будет вставлять типажи людей. В виде совокупности графовых и текстовых параметров. А также типажи сообщений.