Парсер сайтов olx avito и др.

Автор R0land, Квітня 03, 2009, 08:15:06 AM

« попередня тема - наступна тема »

0 Користувачів і 4 Гостей дивляться цю тему.

R0land

Сейчас парсеры сайтов не работают и не поддерживаются.

dmitmal

Здравствуйте.
Скажите, как купить программу "Скания антипосредник 2007"? Сколько это будет стоить? Есть ли более новые версии?
Спасибо.

smagulovi

Здравствуйте!!! Подскажите пжл Скания устанавливается на 1 или сеть ПК?
И Стоит 50$ ?
И работает ли она на сайте krysha kz?
Спасибо!!!

Akella

Сканию можно установить хоть на 1 ПК, хоть на несколько ПК в локальной сети и привязать все копии программы к ЕДИНОЙ базе.
Стоимость можно посмотреть в прайс-листе, в сообщении выше.
Нет, на данный момент нет веб модуля для этого сайта.

А при покупке веб модуля его можно оплатить для одного компьютера и использовать на всех остальных в Вашей организации.

Akella

Видеоуроки теперь в этой теме>>

*******************
Скачать видео "Скания. Видеоурок1. Обработка текстового файла" >> Это EXE исполняемый файл, в котором зашити сразу видео и проигрыватель.
Скачать видео. "Скания. Видеоурок 2. Синтаксический анализ (парсинг) объявлений">>. Это EXE исполняемый файл, в котором зашити сразу видео и проигрыватель.

Leshik

Здравствуйте.
Хотели бы приобрести плоды Вашего труда: и Квартал и Сканию.

Сколько будет стоить отдельный веб-модуль для работы программ с сайтом объявлений нашего города ? (адрес сайта можем сбросить в личку)

Заранее спасибо...

Akella

Зачем Вам Скания, если Вы собираетесь работать с программой Квартал? Тогда уже берите Сканфильтр. Скафнильтр и Квартал работают в паре.
Все цены есть прайс листе. Прайс лист в этой же теме, посмотри первой сообщение, там красным шрифтом обозначено. Адрес сайта сбрасывайте в личку или на электронке.

erikra

Пробую демо-версию Скания Антипосредник и есть несколько вопросов:
1. Сколько будет стоить разработка вебмодуля для сайта http://board.sakh.com/realty/lease/ ?
2. В настройке "Количество строк одного объявления" указывается конкретное количество строк , но объявления могут содержать разное количество строк (например от 3 до 5), в связи с чем там, где количество строк не совпадает с заданным, программа некорректно отображает текст объявлений ("рвет" объявление на части и объединяет разные куски объявлений в одно). Как этого избежать и можно ли указать программе делить текст на объявления не по количеству строк, а по ключевым словам (шаблонам) (например, если в начале любого объявления указан его номер, а в конце - время размещение, соответственно объявление это то, что между ними)?
3. В объявлениях встречаются наборы цифр (например номер объявления), которые программа идентифицирует как телефон, как этого избежать?
4. Можно ли указать программе удалять не объявления, содержащие определенный текст (стоп-слова), а сам текст (различные служебные слова, символы и пр.)?

Akella

Цитата: erikra від Травня 03, 2011, 09:26:32 PM
Пробую демо-версию Скания Антипосредник и есть несколько вопросов:

2. В настройке "Количество строк одного объявления" указывается конкретное количество строк , но объявления могут содержать разное количество строк (например от 3 до 5), в связи с чем там, где количество строк не совпадает с заданным, программа некорректно отображает текст объявлений ("рвет" объявление на части и объединяет разные куски объявлений в одно). Как этого избежать и можно ли указать программе делить текст на объявления не по количеству строк, а по ключевым словам (шаблонам) (например, если в начале любого объявления указан его номер, а в конце - время размещение, соответственно объявление это то, что между ними)?

Ну и сами подумайте, как программа должна определять конец объявления? Это человек как-то визуально, логически, обладая интеллектом, может определить, а в программу заложен какой-то конкретный алгоритм. Если подскажите правильный и сравнительно универсальный алгоритм, то реализуем.

Akella

Цитата: erikra від Травня 03, 2011, 09:26:32 PM3. В объявлениях встречаются наборы цифр (например номер объявления), которые программа идентифицирует как телефон, как этого избежать?

С помощью специальных шаблонов: http://forum.makeit-team.com/index.php/topic,49.0.html
Но опять же сами подумайте, вот число: 7484045. Как Вы думаете, это номер телефона или номер объявления? И я не уверен. Со 100% вероятностью трудно определить.

В этом случае можно воспользоваться функционалом "Поиска и замены по образцу".
Допустим в каждом объявлении есть текст "Объявление № 7484045". В этом случае, опираясь на слово "Объявление №",  этот текст с цифрами можно просто заменить за пустоту каким-нибудь выражением типа: Объявление № \d*?

Выражение Объявление № \d*? будет означать, что нужно искать текст "Объявление №" и после него группу цифр, и всё это заменить на что-то другое.

Akella

Цитата: erikra від Травня 03, 2011, 09:26:32 PM
4. Можно ли указать программе удалять не объявления, содержащие определенный текст (стоп-слова), а сам текст (различные служебные слова, символы и пр.)?

Можно.
Использовать нужно "Замену текста по образцу", вот ссылка: http://makeit-team.com/ommanualsscania/352-m-scania-replace-regexpr.html

erikra

Спасибо за оперативный ответ :good, думал ждать придется долго.
Цитуватикак программа должна определять конец объявления?  Если подскажите правильный и сравнительно универсальный алгоритм, то реализуем.
Каждое объявление дается в определенном формате, либо в него при публикации внедряются какие либо символы или регулярные выражения. Они могут быть разными для различных источников (интернет сайты, газеты...), но, как правило, всегда можно найти что то, что присутствует в каждом объявлении.  Например:
Сдам 1 ком.кв.посуточно, в районе телецентра, полностью укомплектована, в хорошем состоянии, от 1200 руб./сут.
Южно-Сахалинск 89241913924 сегодня 14:58
сдам 3к.кв.по Отдаленной,обычное состояние,пвх,разд.,меблирована,б\техника.15тыс
Южно-Сахалинск 621487 сегодня 14:57
сдам 2к.кв.р-н РМЗ,обычное состояние,пвх,2этаж,мебель,б\техника,18тыс+свет
Южно-Сахалинск 89621278398 сегодня 14:54

Здесь каждое объявление всегда заканчивается указанием времени опубликования объявления: «сегодня ХХ:ХХ». Соответственно все, что находиться между данными фразами (выражениями) и будет являться объявлениями. Т.е. если бы можно было указать программе некие регулярные выражения, означающие начало и конец объявления, она смогла бы корректно делить текст. При этом ни что не мешает, на случай отсутствия таких регулярных выражений (наверное и такое возможно) оставить и возможность делить текст просто по количеству строк, как сейчас.
Цитувативот число: 7484045. Как Вы думаете, это номер телефона или номер объявления? И я не уверен. Со 100% вероятностью трудно определить.

В этом случае можно воспользоваться функционалом "Поиска и замены по образцу".
Допустим в каждом объявлении есть текст "Объявление № 7484045". В этом случае, опираясь на слово "Объявление №",  этот текст с цифрами можно просто заменить за пустоту каким-нибудь выражением типа: Объявление № \d*?

Выражение Объявление № \d*? будет означать, что нужно искать текст "Объявление №" и после него группу цифр, и всё это заменить на что-то другое.
За идею с "Поиском и заменой по образцу" спасибо, хотя с Вашим примером, как раз все просто. Дело в том, что в нашем регионе (может в других иначе, не знаю) в объявлениях используются только шестизначные (городские и короткие сотовые) и одиннадцатизначные (сотовые) номера. Соответственно, если в номере 7 цифр, как в Вашем примере, то он не может быть телефоном.  В связи с этим вопрос:
Для идентификации набора цифр как телефона в программе присутствуют шаблоны (образцы), как, например, эти: \d *?[\d-) ]{5,15} или \d{2,}[\d-)• ]{4,15}\d+? . Те же знаки используются при «поиске и замене по образцу» , как в Вашем примере, Объявление № \d*, где \d* означает группу цифр.
1. Как указать, для Вашего примера, количество цифр в группе цифр?
2. Что означают знаки (*\{}[]()+•,?) и цифры в шаблонах (образцах), чтобы можно было составить свои шаблоны (например, чтобы набор из 7 цифр не определялся как  телефонный номер и пр.) и понять, как работают те, что есть в программе?

Akella

erikra, легче уже написать веб модуль нежели алгоритм определения конца объявления + удаление мусора.

ЦитуватиЗдесь каждое объявление всегда заканчивается указанием времени опубликования объявления: «сегодня ХХ:ХХ».

Ну... это только в одном конкретном Вашем случае.

Akella

Хотя да, я согласен, что можно определять конец каждого объявления регулярным выражением, но это зависит от объявления.
Представьте, что 70-80% объявлений заканчиваются по разному: временем, номерами телефонов, датой, фамилией, адресом сайте или электронной почтой и ВСЁ ЭТО В ОДНОМ ФАЙЛЕ!!

Akella

Цитувати1. Как указать, для Вашего примера, количество цифр в группе цифр?
Выражение
Код Select
\d{5,6} обозначает количество цифр в группе от 5 до 6. НО.... у нас номер телефона, а не несколько цифр подряд без разделителей и объявление может быть составлено каким угодно безобразным способом. Между цифр могут быть разные символы одновременно: тире, пробелы, скобки, точки... да всё что угодно  :-\

Разницу чувствуете между: 748-40-45 и 7484045? Символов разное количество, но цифр одинаковое.

Akella

Цитувати2. Что означают знаки (*\{}[]()+•,?) и цифры в шаблонах (образцах),

Вот >>

Akella

Цитуватичтобы можно было составить свои шаблоны (например, чтобы набор из 7 цифр не определялся как  телефонный номер и пр.)
Я уже дал подсказку, как убрать номера объявлений, чтобы они не путались под ногами.

erikra

Цитата: Akella від Травня 04, 2011, 11:26:24 PM
Вот >>
Цитата: Akella від Травня 04, 2011, 11:28:36 PM
Я уже дал подсказку
Спасибо. :good
Цитата: Akella від Травня 04, 2011, 11:19:22 PM
Хотя да, я согласен, что можно определять конец каждого объявления регулярным выражением, но это зависит от объявления.
Представьте, что 70-80% объявлений заканчиваются по разному: временем, номерами телефонов, датой, фамилией, адресом сайте или электронной почтой и ВСЁ ЭТО В ОДНОМ ФАЙЛЕ!!
Разумеется, данный способ корректного деления текста на отдельные объявления не является универсальным, как и деление по количеству строк, реализованное в программе, но он может служить дополнительным способом, расширяющим функционал программы и упрощающим работу с текстами там, где такой способ можно применить.
К сожалению ???, моих познаний не хватит, чтобы оценить трудности написания подобного алгоритма и внедрения его в Вашу программу. Здесь я полностью полагаюсь на Вас :). И если
Цитата: Akella від Травня 04, 2011, 11:16:53 PM
легче уже написать веб модуль нежели алгоритм определения конца объявления + удаление мусора.
и он (веб модуль) будет гарантированно корректно делить текст на отдельные объявления и не "рвать" их на части (правда остается проблема деления на объявления текста, полученного не из интернет источников, например сканированные тексты объявлений в газетах), тогда вернусь к первому вопросу в моем первом сообщении:
Цитата: erikra від Травня 03, 2011, 09:26:32 PM
1. Сколько будет стоить разработка вебмодуля для сайта http://board.sakh.com/realty/lease/ ?

Akella

Цитуватии он (веб модуль) будет гарантированно корректно делить текст на отдельные объявления и не "рвать" их на части
да, вебмодуль собирает объявления в текст: одно объявление = одна строка

По поводу цены на разработку веб модлуля: посмотрите в прайслисте. Напомните мне эл. почту на след. неделе относительно более точной оценки. Я просто сейчас занят разработкой другого веб модуля. :)

Akella

Цитувати(правда остается проблема деления на объявления текста, полученного не из интернет источников, например сканированные тексты объявлений в газетах
как правило, сканирование из газет  тоже дает нормальный текстовый файл: одно объявление = одна строка.

Мало того, некоторые издательства и сайты продают готовые текстовые файлы с объявлениями.

Smarkun

Здравствуйте, вопросы следующие:
1) в демо версии программы скания антипосредник никак не найти номера телефонов в интернете с сайтов??
2) если приобрести эту программу то какие гарантии что она будет искать телефоны именно на нужном мне сайте, а именно на qp.ru
3) могли бы вы подробнее рассказать как искать номера телефонов собственников квартир, а не агентств)
Заранее спасибо :)

Akella


1.
Цитувати1) в демо версии программы скания антипосредник никак не найти номера телефонов в интернете с сайтов??


Мы не торгуем информацией. И это написано здесь: http://makeit-team.com/mmbuy.html






2.
Цитувати2) если приобрести эту программу то какие гарантии что она будет искать телефоны именно на нужном мне сайте, а именно на qp.ru
Программа не ищет телефоны на сайтах. Этого не заявлено в функционале. Покажите, где Вы это прочитали, может в документации не совсем корректно описано и это сбивает Вас с толку, мы исправим описание.




3.
Цитувати3) могли бы вы подробнее рассказать как искать номера телефонов собственников квартир, а не агентств)
В программе есть поиск и контекстный поиск.


Вот описание как работает контекстный поиск: http://makeit-team.com/ommanualsscania/43-mscania2007contextsearch.html


А для простого поиска по таблице введите искомый текст и нажмите Enter:









В таблице результатов чтобы вызвать строку поиска на главной форме нажмите Ctrl+F и она появится внизу окна:

ivanchik

Цитата: Akella від Травня 04, 2011, 01:24:33 PM
Цитата: erikra від Травня 03, 2011, 09:26:32 PM
4. Можно ли указать программе удалять не объявления, содержащие определенный текст (стоп-слова), а сам текст (различные служебные слова, символы и пр.)?

Можно.
Использовать нужно "Замену текста по образцу", вот ссылка: http://makeit-team.com/ommanualsscania/157-m-scania-replace-regexpr.html
Добрый день, а подскажите как с помощью "Замена текста при обработке объявлений" удалить знак | (вертикальная черта). Я его добавляю а он все равно остается в тексте...

Akella


Попробуйте перед вертикальной чертой поставить слеш - наклонную черту влево \

Чтобы было так:
Код Select
\|

Akella

Дело в том, что вертикальная черта это служебный символ, а служебные символы нужно предворять (экранировать) слешем (наклонной чертой).

SMF spam blocked by CleanTalk