Статистика
Главная Контекстная реклама Парсинг (Parsing)

PostHeaderIcon Парсинг (Parsing)

Контекстная реклама
Что такое « Парсинг (Parsing)»?

Автоматизированный сбор контента или данных с какого-либо сайта или сервиса. Как правило, парсинг производится с применением одного из скриптовых, языков программирования:,

и других. Результат парсинга чаще всего складывается в, в файл, либо выдается в формате.

Скрипт или программа, занимающаяся, непосредственно, сбором, анализом и преобразованием требуемой информации называется парсером.

На и специализированных форумах, парсинг чего-либо —  крайне популярный вид услуг, пользующийся большим спросом. Как правило, под этими услугами подразумевается создание парсера, способного собрать нужную информацию или контент. Но нередки случаи, когда заказчика интересует исключительно сам контент, который он и просит предоставить ему в удобном для него виде.

Заметим, что парсинг —  это, по сути, преобразование данных из неудобоваримого формата в формат удобованимый. То есть, например, разбор и импорт, парсингом не является, поскольку формат RSS является подмножеством стандартного формата XML.

Любой парсер состоит из трех частей, которые отвечают за три отдельных процесса парсинга:

Получение контента в исходном виде. Под получением контента, чаще всего подразумевается скачивание кода веб-страницы, из которой необходимо извлечь данные или контент. Одним из самых развитых решений для получения кода требуемой страницы является библиотека Извлечение и преобразование данных. В этой фазе происходит извлечение требуемых данных из полученного, на первом этапе, кода страницы. Чаще всего для извлечения используют. Также на этом этапе происходит преобразование извлеченных данных к нужному формату, если это требуется;

Генерация результата. Завершающий этап парсинга. На нем происходит вывод или запись полученных, на втором этапе, данных, в требуемый формат. Чаще всего, запись ведется напрямую в базу данных.

В качестве примера можно рассмотреть. Созданный в ней парсер, состоит ровно из трех, приведенных выше, частей.