GD Star Rating
loading...

Привет, друзья.

Просветите, пожалуйста.

Вопрос, может быть, и не к разработке относится, но. Задача такая — нужна удобная тулза для парсинга сайтов и выдирания информации по правилам, задаваемым в виде скриптов. То есть что–то вроде textpipe или regexbuddy, но заточенная не на универсальные задачи по обработке текста, а именно на web.

Если такой нету (а я в этом почти уверен), то тогда подскажите какую–нибудь интерпретатор для windows для которого можно написать скрипт по обработке страниц и он легко и просто заработает. Ключевое требование — удобную и простую, еще лучше если без инсталлятора. Не хочется городить солянку из а) скачайте вот это, б) теперь скачай 100500 библиотек, в) нужно чтобы еще в системе стоял вот такой фреймворк, г) ну и еще нужно wget или что–то типа того, тогда ваш скрипт заработает.

Ну или ткните в очевидное. Может быть это уже давно есть, типа можно VBA для этого заюзать легко, либо WSH, а я и не знаю.

www.hardblog.net  - сервера, компьютеры, ноутбуки, windows, linux, unix, nix

тулза для парсинга сайтов, 4.0 out of 5 based on 1 rating
Tagged with →  

20 Responses to тулза для парсинга сайтов

  1. Knuin:

    http://www.visualwebripper.com/Demonstra… ищи на просторах торрентов

  2. Sukblack:

    Я помню такую штуку еще году в 1999 под виндой. Но к сожалению не вспомню, как она называлась. Была такая аппликача в трее, которая могла по заданным правилам выдирать из сайтов разные апдейты, задолго до появления RSS.

  3. RisPhone:

    это не веб-спайдер был, который мог в глубинные линки залазить? или ты о другом?

  4. TAlEbb:

    Возможно, для твоих целей подойдет iMacros?
    Существует в виде аддонов для Chrome и FF.
    Я скрещивал iMacros с VBA Excel, чтоб результаты были в виде таблицы и допиливал постобработку. Сейчас уже все в голове заместилось другими знаниями, но связка вполне работоспособна.

  5. 0dunod:

    Если винда 7+, там уже должен быть PowerShell. Осталось скачать HtmlAgilityPack.

  6. 474Win:

    Подошло, спасибо. Правда не понял как трансформационный фильтр составить так, что бы он одни символы на другие менял, но я юзал regex, там похоже нет замены, только extract чистой воды. Постобработка помогла допилить в итоге, так что все получилось.

    Правда он довольно неспешный, даже если ставить в качестве движка webcrawler и мануал на родном сайте только для тех у кого есть лицензия. Но вообще штука мощная.

  7. 474Win:

    Это немного не то, обработка нужна довольно сложная.

  8. 474Win:

    Не уверен, но попробую, спасибо.

  9. Knuin:

    я по их видео-урокам учился. Штука очень мощная, постоянно выручала в парсинге для инет-магазинов. Попробуй им написать на почту, вдруг ответят)

  10. YhcAdm:

    Может Web-Harvest подойдет?

  11. Sukblack:

    ну тогда всякие web::mechanize и иже с ними.

  12. Sukblack:

    Не, это даулоадер целых сайтов. А там тулза была что-то типа систем монитора и одной из фич было всасывание и распарсивание html страниц по заданному адресу с заданными правилами поиска, потом он из этого формировал что-то типа новостных попапов.

  13. Drablack:

    Content Downloader

    Человечество еще не придумало ничего лучше. Да, платный, но своих денег стоит на 100%

  14. Ki4odin:

    надеюсь ты это не с целью перевыложить контент на сотню сеошных говносайтов?

  15. 474Win:

    Сайтами не занимаюсь. Цели сугубо личные и никому, кроме меня, не интересные.

  16. NexLinux:

    http://scrapy.org/

    Как часто вы этом мире лучший инструмент написан на python’е.

  17. 90501:

    Питон и сам по себе хороший инструмент для такого.

Добавить комментарий