Парсер сайтов olx avito и др.

Автор R0land, Апрель 03, 2009, 04:15:06 am

« предыдущая - следующая »

0 Пользователей и 2 гостей просматривают эту тему.

R0land

Апрель 03, 2009, 04:15:06 am Последнее редактирование: Декабрь 11, 2019, 12:21:44 pm от Akella
С помощью веб-модулей можно скачивать объявления по недвижимости с разных сайтов, таких как OLX (олх), дом риа и т.д. Веб-модули работают на базе программы Береста. В списке (ниже) указаны готовые веб-модули.

Список готовых веб-модулей для сайтов:
OLX (Беларусь, Украина)
aviso.ua
vashmagazin.ua
dom.ria.com
domofond.ru
fn.ua
farpost.ru
besplatka.ua
999.md (Молдова)
avito.ru (m.avito.ru)
qp.ru
miass.ru
cian.ru
sob.ru (Москва, Санкт-Петербург)
dom.63.ru (Самара)
doska.plus (chita.ru)
bazarpnz.ru (Пенза)
ipr58.ru (Пенза)
irr.ru
irr.by (Беларусь)
kufar.by (Беларусь)
slanet.by (Беларусь)
vladimirhouse.ru (Владимир и область)
cian33.ru (Владимир и область)
yarmarka.biz (список городов здесь - yarmarka.biz/city )
moyareklama.ru
n.zab.ru
vdv40.ru
youla.ru



и другие...

Внимание!
Каждый веб-модуль (парсер) для скачивания объявлений с сайтов разрабатывается и оплачивается отдельно для каждого сайта.
Веб-модуль - это не отдельная программа и может работать только в составе программы Береста.
Береста - это как бы каркас + база, куда скачиваются объявления разными веб-модулями.
Программа Береста бесплатна и её цена определяется только приобретаемыми веб-модулями.
При покупке 3х и более веб-модулей действует скидка 15%.

---
ключевые слова и поисковые тэги
парсинг
парсер
скания антипосредник кряк
регистрация программы скания антипосредник
скания антипосредник активация ключ
посредник программа
программа отсеивания телефонных номеров телефонов
программа поиска и обработки объявлений фильтр объявлений телефонов посредников
обработки частных объявлений
детектор телефонов
программа обработка сайтов
программа поможет обработать кучу объявлений
скачивание объявлений сландо программа
программа-парсер скачивания объявлений olx олх
программа парсер дом риа dom.ria
программа парсер олх


парсер оголошень олх бесплатка

Видео:
https://www.youtube.com/watch?v=3ay6eDPwi7M

dmitmal

Здравствуйте.
Скажите, как купить программу "Скания антипосредник 2007"? Сколько это будет стоить? Есть ли более новые версии?
Спасибо.

smagulovi

Апрель 15, 2010, 05:53:14 pm #2 Последнее редактирование: Апрель 21, 2010, 09:47:22 am от Akella
Здравствуйте!!! Подскажите пжл Скания устанавливается на 1 или сеть ПК?
И Стоит 50$ ?
И работает ли она на сайте krysha kz?
Спасибо!!!

Akella

Апрель 15, 2010, 07:31:06 pm #3 Последнее редактирование: Сентябрь 01, 2010, 09:12:04 am от Akella
Сканию можно установить хоть на 1 ПК, хоть на несколько ПК в локальной сети и привязать все копии программы к ЕДИНОЙ базе.
Стоимость можно посмотреть в прайс-листе, в сообщении выше.
Нет, на данный момент нет веб модуля для этого сайта.

А при покупке веб модуля его можно оплатить для одного компьютера и использовать на всех остальных в Вашей организации.

Akella

Апрель 02, 2011, 07:24:31 pm #4 Последнее редактирование: Февраль 25, 2017, 12:31:17 pm от Akella
Видеоуроки теперь в этой теме>>

*******************
Скачать видео "Скания. Видеоурок1. Обработка текстового файла" >> Это EXE исполняемый файл, в котором зашити сразу видео и проигрыватель.
Скачать видео. "Скания. Видеоурок 2. Синтаксический анализ (парсинг) объявлений">>. Это EXE исполняемый файл, в котором зашити сразу видео и проигрыватель.

Leshik

Здравствуйте.
Хотели бы приобрести плоды Вашего труда: и Квартал и Сканию.

Сколько будет стоить отдельный веб-модуль для работы программ с сайтом объявлений нашего города ? (адрес сайта можем сбросить в личку)

Заранее спасибо...

Akella

Зачем Вам Скания, если Вы собираетесь работать с программой Квартал? Тогда уже берите Сканфильтр. Скафнильтр и Квартал работают в паре.
Все цены есть прайс листе. Прайс лист в этой же теме, посмотри первой сообщение, там красным шрифтом обозначено. Адрес сайта сбрасывайте в личку или на электронке.

erikra

Май 03, 2011, 05:26:32 pm #7 Последнее редактирование: Май 03, 2011, 05:40:41 pm от erikra
Пробую демо-версию Скания Антипосредник и есть несколько вопросов:
1. Сколько будет стоить разработка вебмодуля для сайта http://board.sakh.com/realty/lease/ ?
2. В настройке "Количество строк одного объявления" указывается конкретное количество строк , но объявления могут содержать разное количество строк (например от 3 до 5), в связи с чем там, где количество строк не совпадает с заданным, программа некорректно отображает текст объявлений ("рвет" объявление на части и объединяет разные куски объявлений в одно). Как этого избежать и можно ли указать программе делить текст на объявления не по количеству строк, а по ключевым словам (шаблонам) (например, если в начале любого объявления указан его номер, а в конце - время размещение, соответственно объявление это то, что между ними)?
3. В объявлениях встречаются наборы цифр (например номер объявления), которые программа идентифицирует как телефон, как этого избежать?
4. Можно ли указать программе удалять не объявления, содержащие определенный текст (стоп-слова), а сам текст (различные служебные слова, символы и пр.)?

Akella

Цитата: erikra от Май 03, 2011, 05:26:32 pm
Пробую демо-версию Скания Антипосредник и есть несколько вопросов:

2. В настройке "Количество строк одного объявления" указывается конкретное количество строк , но объявления могут содержать разное количество строк (например от 3 до 5), в связи с чем там, где количество строк не совпадает с заданным, программа некорректно отображает текст объявлений ("рвет" объявление на части и объединяет разные куски объявлений в одно). Как этого избежать и можно ли указать программе делить текст на объявления не по количеству строк, а по ключевым словам (шаблонам) (например, если в начале любого объявления указан его номер, а в конце - время размещение, соответственно объявление это то, что между ними)?


Ну и сами подумайте, как программа должна определять конец объявления? Это человек как-то визуально, логически, обладая интеллектом, может определить, а в программу заложен какой-то конкретный алгоритм. Если подскажите правильный и сравнительно универсальный алгоритм, то реализуем.

Akella

Май 04, 2011, 09:22:12 am #9 Последнее редактирование: Май 04, 2011, 09:35:50 am от Akella
Цитата: erikra от Май 03, 2011, 05:26:32 pm3. В объявлениях встречаются наборы цифр (например номер объявления), которые программа идентифицирует как телефон, как этого избежать?


С помощью специальных шаблонов: http://forum.makeit-team.com/index.php/topic,49.0.html
Но опять же сами подумайте, вот число: 7484045. Как Вы думаете, это номер телефона или номер объявления? И я не уверен. Со 100% вероятностью трудно определить.

В этом случае можно воспользоваться функционалом "Поиска и замены по образцу".
Допустим в каждом объявлении есть текст "Объявление № 7484045". В этом случае, опираясь на слово "Объявление №",  этот текст с цифрами можно просто заменить за пустоту каким-нибудь выражением типа: Объявление № \d*?

Выражение Объявление № \d*? будет означать, что нужно искать текст "Объявление №" и после него группу цифр, и всё это заменить на что-то другое.

Akella

Май 04, 2011, 09:24:33 am #10 Последнее редактирование: Октябрь 22, 2016, 01:36:05 pm от Akella
Цитата: erikra от Май 03, 2011, 05:26:32 pm
4. Можно ли указать программе удалять не объявления, содержащие определенный текст (стоп-слова), а сам текст (различные служебные слова, символы и пр.)?


Можно.
Использовать нужно "Замену текста по образцу", вот ссылка: http://makeit-team.com/ommanualsscania/352-m-scania-replace-regexpr.html

erikra

Спасибо за оперативный ответ :good, думал ждать придется долго.
Цитироватькак программа должна определять конец объявления?  Если подскажите правильный и сравнительно универсальный алгоритм, то реализуем.

Каждое объявление дается в определенном формате, либо в него при публикации внедряются какие либо символы или регулярные выражения. Они могут быть разными для различных источников (интернет сайты, газеты...), но, как правило, всегда можно найти что то, что присутствует в каждом объявлении.  Например:
Сдам 1 ком.кв.посуточно, в районе телецентра, полностью укомплектована, в хорошем состоянии, от 1200 руб./сут.
Южно-Сахалинск 89241913924 сегодня 14:58
сдам 3к.кв.по Отдаленной,обычное состояние,пвх,разд.,меблирована,б\техника.15тыс
Южно-Сахалинск 621487 сегодня 14:57
сдам 2к.кв.р-н РМЗ,обычное состояние,пвх,2этаж,мебель,б\техника,18тыс+свет
Южно-Сахалинск 89621278398 сегодня 14:54

Здесь каждое объявление всегда заканчивается указанием времени опубликования объявления: «сегодня ХХ:ХХ». Соответственно все, что находиться между данными фразами (выражениями) и будет являться объявлениями. Т.е. если бы можно было указать программе некие регулярные выражения, означающие начало и конец объявления, она смогла бы корректно делить текст. При этом ни что не мешает, на случай отсутствия таких регулярных выражений (наверное и такое возможно) оставить и возможность делить текст просто по количеству строк, как сейчас.
Цитироватьвот число: 7484045. Как Вы думаете, это номер телефона или номер объявления? И я не уверен. Со 100% вероятностью трудно определить.

В этом случае можно воспользоваться функционалом "Поиска и замены по образцу".
Допустим в каждом объявлении есть текст "Объявление № 7484045". В этом случае, опираясь на слово "Объявление №",  этот текст с цифрами можно просто заменить за пустоту каким-нибудь выражением типа: Объявление № \d*?

Выражение Объявление № \d*? будет означать, что нужно искать текст "Объявление №" и после него группу цифр, и всё это заменить на что-то другое.

За идею с "Поиском и заменой по образцу" спасибо, хотя с Вашим примером, как раз все просто. Дело в том, что в нашем регионе (может в других иначе, не знаю) в объявлениях используются только шестизначные (городские и короткие сотовые) и одиннадцатизначные (сотовые) номера. Соответственно, если в номере 7 цифр, как в Вашем примере, то он не может быть телефоном.  В связи с этим вопрос:
Для идентификации набора цифр как телефона в программе присутствуют шаблоны (образцы), как, например, эти: \d *?[\d-) ]{5,15} или \d{2,}[\d-)• ]{4,15}\d+? . Те же знаки используются при «поиске и замене по образцу» , как в Вашем примере, Объявление № \d*, где \d* означает группу цифр.
1. Как указать, для Вашего примера, количество цифр в группе цифр?
2. Что означают знаки (*\{}[]()+•,?) и цифры в шаблонах (образцах), чтобы можно было составить свои шаблоны (например, чтобы набор из 7 цифр не определялся как  телефонный номер и пр.) и понять, как работают те, что есть в программе?

Akella

erikra, легче уже написать веб модуль нежели алгоритм определения конца объявления + удаление мусора.

ЦитироватьЗдесь каждое объявление всегда заканчивается указанием времени опубликования объявления: «сегодня ХХ:ХХ».


Ну... это только в одном конкретном Вашем случае.

Akella

Хотя да, я согласен, что можно определять конец каждого объявления регулярным выражением, но это зависит от объявления.
Представьте, что 70-80% объявлений заканчиваются по разному: временем, номерами телефонов, датой, фамилией, адресом сайте или электронной почтой и ВСЁ ЭТО В ОДНОМ ФАЙЛЕ!!

Akella

Цитировать1. Как указать, для Вашего примера, количество цифр в группе цифр?

Выражение \d{5,6} обозначает количество цифр в группе от 5 до 6. НО.... у нас номер телефона, а не несколько цифр подряд без разделителей и объявление может быть составлено каким угодно безобразным способом. Между цифр могут быть разные символы одновременно: тире, пробелы, скобки, точки... да всё что угодно  :-\

Разницу чувствуете между: 748-40-45 и 7484045? Символов разное количество, но цифр одинаковое.

Akella

Цитировать2. Что означают знаки (*\{}[]()+•,?) и цифры в шаблонах (образцах),


Вот >>

Akella

Цитироватьчтобы можно было составить свои шаблоны (например, чтобы набор из 7 цифр не определялся как  телефонный номер и пр.)

Я уже дал подсказку, как убрать номера объявлений, чтобы они не путались под ногами.

erikra

Цитата: Akella от Май 04, 2011, 07:26:24 pm
Вот >>

Цитата: Akella от Май 04, 2011, 07:28:36 pm
Я уже дал подсказку

Спасибо. :good
Цитата: Akella от Май 04, 2011, 07:19:22 pm
Хотя да, я согласен, что можно определять конец каждого объявления регулярным выражением, но это зависит от объявления.
Представьте, что 70-80% объявлений заканчиваются по разному: временем, номерами телефонов, датой, фамилией, адресом сайте или электронной почтой и ВСЁ ЭТО В ОДНОМ ФАЙЛЕ!!

Разумеется, данный способ корректного деления текста на отдельные объявления не является универсальным, как и деление по количеству строк, реализованное в программе, но он может служить дополнительным способом, расширяющим функционал программы и упрощающим работу с текстами там, где такой способ можно применить.
К сожалению ???, моих познаний не хватит, чтобы оценить трудности написания подобного алгоритма и внедрения его в Вашу программу. Здесь я полностью полагаюсь на Вас :). И если
Цитата: Akella от Май 04, 2011, 07:16:53 pm
легче уже написать веб модуль нежели алгоритм определения конца объявления + удаление мусора.

и он (веб модуль) будет гарантированно корректно делить текст на отдельные объявления и не "рвать" их на части (правда остается проблема деления на объявления текста, полученного не из интернет источников, например сканированные тексты объявлений в газетах), тогда вернусь к первому вопросу в моем первом сообщении:
Цитата: erikra от Май 03, 2011, 05:26:32 pm
1. Сколько будет стоить разработка вебмодуля для сайта http://board.sakh.com/realty/lease/ ?

Akella

Цитироватьи он (веб модуль) будет гарантированно корректно делить текст на отдельные объявления и не "рвать" их на части

да, вебмодуль собирает объявления в текст: одно объявление = одна строка

По поводу цены на разработку веб модлуля: посмотрите в прайслисте. Напомните мне эл. почту на след. неделе относительно более точной оценки. Я просто сейчас занят разработкой другого веб модуля. :)

Akella

Цитировать(правда остается проблема деления на объявления текста, полученного не из интернет источников, например сканированные тексты объявлений в газетах

как правило, сканирование из газет  тоже дает нормальный текстовый файл: одно объявление = одна строка.

Мало того, некоторые издательства и сайты продают готовые текстовые файлы с объявлениями.

Smarkun

Здравствуйте, вопросы следующие:
1) в демо версии программы скания антипосредник никак не найти номера телефонов в интернете с сайтов??
2) если приобрести эту программу то какие гарантии что она будет искать телефоны именно на нужном мне сайте, а именно на qp.ru
3) могли бы вы подробнее рассказать как искать номера телефонов собственников квартир, а не агентств)
Заранее спасибо :)

Akella

Сентябрь 22, 2011, 11:17:23 am #21 Последнее редактирование: Сентябрь 28, 2011, 06:59:36 am от Akella

1.
Цитировать1) в демо версии программы скания антипосредник никак не найти номера телефонов в интернете с сайтов??



Мы не торгуем информацией. И это написано здесь: http://makeit-team.com/mmbuy.html






2.
Цитировать2) если приобрести эту программу то какие гарантии что она будет искать телефоны именно на нужном мне сайте, а именно на qp.ru

Программа не ищет телефоны на сайтах. Этого не заявлено в функционале. Покажите, где Вы это прочитали, может в документации не совсем корректно описано и это сбивает Вас с толку, мы исправим описание.




3.
Цитировать3) могли бы вы подробнее рассказать как искать номера телефонов собственников квартир, а не агентств)
В программе есть поиск и контекстный поиск.



Вот описание как работает контекстный поиск: http://makeit-team.com/ommanualsscania/43-mscania2007contextsearch.html


А для простого поиска по таблице введите искомый текст и нажмите Enter:









В таблице результатов чтобы вызвать строку поиска на главной форме нажмите Ctrl+F и она появится внизу окна:

ivanchik

Цитата: Akella от Май 04, 2011, 09:24:33 am
Цитата: erikra от Май 03, 2011, 05:26:32 pm
4. Можно ли указать программе удалять не объявления, содержащие определенный текст (стоп-слова), а сам текст (различные служебные слова, символы и пр.)?


Можно.
Использовать нужно "Замену текста по образцу", вот ссылка: http://makeit-team.com/ommanualsscania/157-m-scania-replace-regexpr.html

Добрый день, а подскажите как с помощью "Замена текста при обработке объявлений" удалить знак | (вертикальная черта). Я его добавляю а он все равно остается в тексте...

Akella


Попробуйте перед вертикальной чертой поставить слеш - наклонную черту влево \

Чтобы было так:
\|

Akella

Дело в том, что вертикальная черта это служебный символ, а служебные символы нужно предворять (экранировать) слешем (наклонной чертой).