Архив метки: парсер

https-клиент на python

Скрипт читает в переменную содержимое html-страницы:

# -*- coding: utf-8 -*-
import http.client
import ssl
print('Program started')

#выполнить http-запрос
print('Sending request to site...')
#https://stackoverflow.com/questions/39945702/httplib-httpsconnection-issue-certificate-verify-failed#39945733
conn = http.client.HTTPSConnection('kmsvsr.ru', timeout=5, context=ssl._create_unverified_context())

conn.request("GET", "/")
resp = conn.getresponse()
print(resp.status, resp.reason)

print('Reading answer...')
data = resp.read().decode()
print (data)

Скрипт не дописан, кто будет пользоваться — не забудьте добавить сюда обработку ошибок. А так по быстрому спарсить страницу пойдёт.

Из обобенностей: здесь в примере открывается сайт не по HTTP, а по HTTPS, при чём включен игнор ошибок, то есть код можно использовать для парсинга сайтов с самоподписанными сертификатами.

Черновик парсера-граббера сайтов на Perl

Этот код выдирает и показывает текущую погоду с главной страницы яндекса и сохраняет результат в файл.

#!/usr/bin/perl -w
sleep (3);
use LWP::UserAgent;
use HTTP::Request;
$url = "http://www.yandex.ru";
$lwp = LWP::UserAgent->new;
$r = HTTP::Request->new(GET => "$url");
$response = $lwp->request($r);
if ($response->is_success)
 {
    $tmpout =  $response->content;
#    $tmpout =~  s/agava/zzzz/g;
  $_ = $tmpout;
    open ($FILE1, ">", "test.html");
    print $FILE1 "$1\n" while m/(<div>.*?<\/a><\/div><\/div>)/g; 
    close $FILE1;
 }
else
 {
  print $response->error_as_HTML;
 }
 sleep (3);

Полученный файл — кусок html кода, который в браузере будет выглядеть примерно так:

perlЧтоб допилить под конкретные задачи — можно добавить пару регулярных выражений, чтоб убрать или добавить теги, переписать сохранение файла, например под формат CSV для Excel, ну и добавить сборку ссылок для перебора в цикле, чтоб получился паучок. Можно выгребать например адреса, телефоны, цены и т.п., главное правильно шаблоны составить или в инете готовые найти. Может кому пригодится.