Метаданные в статье что это
Что такое метаданные. Объясняем простыми словами
Метаданные — это средство классификации, упорядочивания и характеристики данных.
Проще говоря, метаданные — это данные о данных (об их составе, содержании, статусе, происхождении, местонахождении, качестве, форматах, объёме, условиях доступа, авторских правах и т. п.).
Ежедневно мы отправляем электронные сообщения или файлы. У каждого такого послания есть не только содержание, но и дата и время отправки, указание отправителя и получателя, тип вложения, его объём и прочие характеристики. Это и есть метаданные.
Пример употребления на «Секрете»
«ProPublica обвинила корпорацию в сборе метаданных пользователей WhatsАpp — картинок, номеров телефонов, часовых поясов и даже IP-адресов. Куда они потом передавались? Журналисты ProPublica утверждают, что прямиком к американским силовикам».
(Из материала об уязвимостях проектов Facebook.)
Нюансы
Изначально этот термин означал средство каталогизации архивной информации: карточки библиотечного каталога включают систематизированные данные о каждой книге, в том числе название книги, его автора, жанр, аннотацию и т. д. Идея метаданных с тех пор не изменилась, хоть поле деятельности перешло в цифровой мир. По сути, вы генерируете метаданные прямо сейчас.
У любого файла, телефонного разговора, публикации в Facebook, видеофильма или перевода денег через банковское приложение есть метаданные. Мы часто не замечаем их, поскольку наше внимание закономерно сфокусировано на содержании. Но метаданные неотделимы от самих данных — трудно представить себе документ, у которого нет даты создания или редактирования.
Наличие возможности фильтровать метаданные значительно облегчает поиск определённого документа, файла или контента, ведь они содержат больше ценной информации, чем может показаться на первый взгляд. По метаданным можно выследить человека или получить на него компромат, полностью изменив его жизнь.
Доступ к вашим метаданным, которые передаются через интернет, есть у самых разных людей и организаций. Это могут быть как маркетологи, так и хакеры с госорганами. Например, заголовки писем могут быть доступны не только отправителю и адресату, но и почтовым провайдерам и даже спецслужбам. Владелец сайта, на который вы заходите, может узнать не только ваш IP-адрес, но и версии браузера и операционной системы. Это объясняется тем, что зачастую метаданные общедоступны и никак не защищены.
Правительства разных стран требуют от телекоммуникационных компаний хранить метаданные определённое количество времени для нужд правоохранительных органов и спецслужб. В России за эту процедуру отвечает «пакет Яровой», который предписывает сотовым операторам и интернет-компаниям хранить до шести месяцев весь пользовательский трафик — переписку в мессенджерах, социальных сетях и электронной почте, аудиозаписи звонков. При этом метаданные — то есть информацию о том, кому и когда звонил или пересылал файлы пользователь, — нужно хранить ещё дольше, а именно в течение трёх лет. Правоохранительные органы могут получить эту информацию по запросу.
Виды метаданных
Национальная организация по информационным стандартам (NISO) предлагает классифицировать метаданные таким образом:
Примеры
Метаданные используются при организации разных видов цифровой информации. Вот несколько примеров:
Существуют и признанные стандарты метаданных для определённых форматов данных. Например, таковым можно назвать общеевропейский исследовательский информационный формат (CERIF). Этот стандарт ЕС рекомендует своим государствам-членам для регистрации информации об исследовательской деятельности.
Как метаданные меняют жизнь людей
В апреле 2017 года московского математика Дмитрия Богатова обвинили в том, что он якобы призывал в Сети к массовым беспорядкам и терроризму на акции протеста. По версии следствия, Богатов под псевдонимом Айрат Баширов публиковал на интернет-форуме провокационные материалы о подготовке к вооружённому восстанию. Правоохранительные органы утверждали, что вычислили математика по IP-адресу. Сам Богатов объяснял, что не имеет к Айрату Баширову никакого отношения, поскольку в его квартире функционировал выходной узел сети Tor, с помощью которой с его IP-адреса публиковать сообщения мог фактически кто угодно. Поэтому трафик злоумышленника, предположительно, прошёл через компьютер математика.
Таким образом, метаданные (IP-адрес) послужили поводом для уголовного преследования. После того как Богатов провёл несколько месяцев в СИЗО, уголовное дело против него прекратили. Затем математик вместе с женой покинул Россию. Впоследствии по этому делу задержали Владислава Кулешова из Ставрополя, который признал вину и получил полтора года ограничения свободы.
А ваш научный журнал обладает полными метаданными? Интервью с Патришией Фини (Crossref)
Если Вам важно, чтобы статьи в научном журнале отображались в результатах онлайн-поиска и в науокометрических индексах, то наличие качественных метаданных должно быть одним из ваших главных приоритетов. Метаданные — это данные, хранящиеся в цифровом объекте, например, журнальной статье. Эти данные предоставляют информацию о содержимом объекта. Когда мы говорим о полях метаданных, мы имеем в виду данные, которые можно использовать для организации или поиска определенных статей в Интернете. Основными матаданными являются, например, название журнала, ISSN, название статьи. Примером более специфических метаданных могут служить релевантные ключевые слова и ORCID авторов.
Crossref — одно из регистрационных агентств DOI. Метаданные заносятся в DOI, который, в свою очередь, присваивается контенту, с которым связан DOI. Crossref не может обрабатывать данные статей, если те выпускаются только в текстовом формате. Для регистрации DOI необходимо предоставить метаданные в машиночитаемом формате, который система может «прочитать» и использовать для хранения информацию о статье с помощью DOI. Точно так же, многие научные базы данных и основные онлайн-браузеры, такие как Google и Google Scholar, полностью или частично используют машинно-читаемые метаданные для индексации цифровых объектов и их выдаче в поиске. Поэтому очень важно, чтобы журналы не просто публиковали статьи в Интернет, надеясь на то, что индексы и браузеры смогут их обрабатывать, но и предоставляли полные метаданные ко всем статьям, чтобы сделать их индексируемыми.
Недавно Crossref выпустил бета-версию нового инструмента под названием «Отчеты об участии» — https://www.crossref.org/members/prep/, который помогает журналам-членам проверить качество машиночитаемых метаданных, связанных с каждым из их DOI. Данный инструмент может сказать, какие метаданные хранятся в каждом из DOI журнала, а каких нет. Это может помочь журналам узнать, где они могут улучшить свои записи. В этом интервью директор отдела метаданных Crossref Патришия Фини рассказывает о новом инструменте, требованиях метаданных Crossref и некоторых общих рекомендациях, которые помогут Вам узнать, имеют ли ваши статьи полные машиночитаемые метаданные.
Интервью с Патришией Фини:
— Не могли бы Вы вкратце объяснить, что такое машиночитаемые метаданные и почему так важно, чтобы журналы имели машиночитаемые метаданные для каждой из своих статей?
— Машиночитаемые метаданные — это описательные метаданные, которые могут быть «прочитаны» компьютером. Это означает, что это организованные, чистые метаданные, которые следуют определенным правилам. Сегодня многие журнальные статьи обрабатываются с использованием XML, который следует определенному набору правил, требующих четкой маркировки названий, имен авторов и тому подобного, чтобы машина могла «понимать» правила и знать, для чего предназначен каждый фрагмент данных.
Машиночитаемые метаданные очень важны для поиска. По крайней мере, каждая статья должна обладать основными метаданными, чтобы поисковые и библиотечные системы могли импортировать эти метаданные, связывать читателей с тем, что они ищут, а также помогать читателям открывать новую информацию для дальнейших исследований. Машиночитаемые метаданные также важны для правильного цитирования. Вы хотите убедиться, что статьи цитируются точно. А кто-то, глядя на вашу статюю, должен уметь найти четкую ссылку на то, что вы цитируете. Но на данный момент слишком много людей делают все это вручную, что приводит к большому числу ошибок в цитировании.
Примечание РАЦС:
Crossref имеет собственную схему метаданных, которую должны соблюдать все участники. Они должны иметь возможность создавать XML и отправлять его в Crossref в соответствии с правилами схемы метаданных. Система Гефест, разработанная РАЦС, помогает генерировать XML для регистрации DOI в Crossref и DataCite, а также преобразовывать метаданные из Российского Индекса Научного Цитирования (РИНЦ) в xml для регистрации DOI. Помимо этого, при помощи Гефест можно генерировать и переносить в различные системы XML DOI (DataCite и Crossref с опцией Crossmark), РИНЦ (elibrary.ru), DOAJ, AGRIS, PubMed, Math-Net, Chemical Abstracts и GeoRef.
— Я думаю, что основные метаданные, которые должны предоставить издатели, — это базовая информация о цитировании, чтобы можно было идентифицировать имеющиеся у нас записи метаданных. Поэтому важными являются заголовок, имена авторов и любые идентификаторы, такие как ISSN. Одним словом, все данные, необходимые для создания полной записи.
— Какие рекомендации по метаданным Вы бы предложили? Что бы Вы назвали основными плюсами и минусами?
— Есть несколько довольно простых советов для формирования метаданных журнала. Это может быть довольно сложно, если вы делаете это вручную (примечание РАЦС: система Гефест позволяет предоставить все необходимые метаданные и осуществить их проверку). Я думаю, что для журналов, в частности, важно обращать внимание на информацию об авторах — именно здесь у нас может быть много проблем с неверными данными. Включение ORCID в метаданные помогает решить проблемы идентификации автора. Если издатели еще этого не делают, им следует рассмотреть возможность получения ORCID от авторов. Другой совет – уделять больше времени проверки метаданных. Вы можете подумать, что это требует слишком много усилий, и что овчинка не стоит выделки. Но журналы должны знать, что оно того стоит. Метаданные перемещаются очень далеко, и важно убедиться, что детали верны.
— Можете ли Вы объяснить новый инструмент отчетов об участии? Как участники могут использовать это?
— Наши отчеты об участии решают одну из самых больших проблем.
Инструмент позволяет понять, являются ли полными метаданные, которые представили журналы. По сути, он проверяет, отправляете ли вы нам все метаданные, которые, по вашему мнению, отправляете.
При первом входе на страницу отчетов появляется окно поиска, которое можно использовать для просмотра отчетов по имени участника или издателю. Далее вы можете найти конкретный заголовок статьи. В отчетах по издателю, вы увидите сводку всех данных в своем журнале или журналах. Вы можете посмотреть какой статус метаданных у текущего контента, а также, сколько объектов было зарегистрировано в Crossref.
Это очень простой инструмент, который позволяет получить много ценной информации. Например, он показывает, отправляются полные ссылки или нет. Отчеты не дадут информации о качестве ваших метаданных. Например, вы не сможете определить, верны ли имена авторов, но они покажут, сколько статей имеют ORCID. Участники, работающие со спонсорами, могут не иметь четкого представления о том, что они нам отправляют. Или если участник работает с системой, которая обрабатывает большое количество статей, и которой может быть очень сложно проверить каждую из них, отчеты помогут увидеть, попадают ли ссылки в Crossref. Поэтому я думаю, что это очень простой, но мощный инструмент. Отчеты находятся в свободном доступе, все пользователи могут просматривать метаданные издателя.
— Каковы основные преимущества для журналов в использовании отчетов для проверки своих метаданных? Что Вы надеетесь получить от этого нового инструмента?
— Я думаю, что реальная выгода для наших участников заключается в том, что отчеты дают представление о качестве метаданных, которые они отправляют в Crossref. В ходе обсуждений с участниками мы обнаружили, что многие из них хотят присылать нам более качественные метаданные, но иногда им трудно получить общую картину того, как их записи обрабатываются Crossref. Так что это своего рода первый шаг к тому, чтобы позволить издателям увидеть это самим. Это облегчит им просмотр статей и позволит понять, не теряются ли какие-либо метаданные, которые они отправляют.
Мы надеемся, что этот новый инструмент повысит осведомленность о различных типах метаданных, которые могут быть отправлены в Crossref. Наши участники знают, что им нужно отправлять нам базовые метаданные цитирования, но они могут не знать, что могут отправлять нам, например, URL-адреса с текстом и данными. Посмотрев на этот отчет, участники смогут увидеть опции метаданных, которые они еще не используют. Это может привести к тому, что они начнут посылать нам дополнительные метаданные.
Инструмент «Отчет об участии» все еще находится на стадии бета-тестирования, и мы хотели бы получить больше отзывов о нем и в целом больше отзывов о том, что нужно нашим членам от нас, чтобы понять и улучшить качество их метаданных.
Метаданные
Метаданные, в общем случае, это:
Содержание
Иерархии метаданных
Структурированные в виде иерархии метаданные более правильно называть онтологией или схемой метаданных (например, XML-схема).
Различие между данными и метаданными
Обычно невозможно провести однозначное разделение на данные и метаданные в документе, поскольку:
Эти рассуждения применимы независимо от выбора определения метаданных (из приведённых выше и не только).
Использование
Метаданные используются для повышения качества поиска. Поисковые запросы, использующие метаданные, могут спасти пользователя от лишней ручной работы по фильтрации. Информируя компьютер о том, какие элементы данных связаны и как эти связи учитывать, становится возможным осуществлять достаточно сложные операции по фильтрации и поиску. Например, если поисковая система «знает» о том, что «Ван Гог» является «голландским художником», то она может выдать в ответ на запрос о голландских художниках веб-страницу о Ван Гоге, даже если слова «голландский художник» не встречаются на этой странице. Такой подход, называемый представлением знаний, находится в сфере интересов Семантической паутины и искусственного интеллекта.
В частности, метаданные создаются для оптимизации алгоритмов сжатия с потерей качества. Например, если к видео прилагаются метаданные, позволяющие компьютеру разделить изображение на основную часть и фоновую, то последняя может быть сжата сильнее, что позволит достичь большего коэффициента сжатия.
Некоторые виды метаданных предназначены для обеспечения возможности различных видов представления некоторых данных. Например, если к изображению прилагаются метаданные, содержащие информацию о том, какая часть изображения наиболее важная (допустим, изображение человека), то программа для просмотра изображений на маленьком экране (таком, как на мобильном телефоне), может отобразить только эту наиболее важную часть изображения. Аналогично используются метаданные, позволяющие сделать доступными для слепых диаграммы и изображения, путём их преобразования для вывода на специальные устройства, либо чтения их описания с использованием программного обеспечения, преобразующего текст в речь.
Другие описательные метаданные могут использоваться автоматизированными рабочими потоками. Например, если некоторая «умная» программа «знает» содержимое и структуру данных, то данные могут быть автоматически преобразованы и переданы другой «умной» программе как входные данные. В результате, пользователи будут спасены от необходимости выполнения множества рутинных операций, если данные предоставлены для работы такими «немногословным» программам.
Метаданные становятся важны в World Wide Web по причине необходимости обеспечения поиска полезной информации среди огромного количества доступной. Метаданные, созданные вручную, имеют большую ценность, поскольку это гарантирует осмысленность. Если веб-страница на какую-то определённую тему содержит слово или фразу, то все другие веб-страницы на эту тему могут содержать такое же слово или фразу. Метаданные также обладают разнообразием, поэтому если с какой-то темой связаны два значения, то каждое из них может быть использовано. Например, статья про Живой Журнал может быть обозначена с помощью нескольких значений: «Живой Журнал», «ЖЖ», «LiveJournal».
Метаданные используются для хранения информации о записях audio CD. Аналогично MP3 файлы хранят метаданные в формате ID3.
Редактировать метаданные графических файлов можно в специальных программах для работы с метаданными.
Классификация метаданных
Метаданные можно классифицировать по:
Формат метаданных
Метаданными на практике обычно называют данные, представленные в соответствии с одним из форматов метаданных.
Формат метаданных — представляет собой стандарт, предназначенный для формального описания некоторой категории ресурсов (объектов, сущностей и т. п.). Такой стандарт обычно включает в себя набор полей (атрибутов, свойств, элементов метаданных), позволяющих характеризовать рассматриваемый объект. Например, формат MARC позволяет описывать книги (и не только книги), содержит поля для описания названия, автора, тематики и огромного множества других характеристик (формат MARC позволяет описать сотни характеристик).
Форматы можно классифицировать, во-первых, по охвату и подробности типов описываемых ресурсов. Во-вторых, по ширине и подробности области описания ресурсов и мощности структуры элементов метаданных. Кроме этого, можно классифицировать по предметным областям, или целям разработки и использования формата метаданных.
Форматы метаданных часто разрабатываются международными организациями или консорциумами, включающими в себя заинтересованные в появлении стандарта государственные организации и частные компании. Разработанный формат часто закрепляется как стандарт в одной или нескольких организациях, занимающихся разработкой и принятием стандартов (например W3C, ISO, ANSI и т. п.)
Классификация форматов метаданных по описываемой предметной области:
Что такое метаданные и как их удалить?
В контексте конфиденциальности мы часто говорим о метаданных как о слабом звене. Несмотря на то, что данные можно легко скрыть и зашифровать, с метаданными зачастую это сделать гораздо сложнее.
Метаданные — это данные о данных. Например, если эта статья представляет собой данные, ее метаданные будут включать информацию о количестве слов, на каком языке она написана, когда была впервые опубликована и связана ли она с изображением. Если вы будете запрашивать эту статью с какого-либо сервера, метаданные этой передачи будут включать время запроса и ваш IP адрес (или IP адрес вашей VPN службы).
Метаданные очень полезны, поскольку они сокращают объем информации, необходимой для обработки файла, и могут упростить управление большими файлами. Но также они могут представлять угрозу для вашей конфиденциальности, потому что во многих случаях метаданные включают в себя всю информацию, необходимую для вашей идентификации. Например, если метаданные показывают, что вам позвонили из полицейского участка, за которым следует ваш звонок на мобильный телефон вашего ребенка, за которым следует звонок адвокату, — большая часть истории уже раскрыта.
Типы метаданных
Существует два основных типа метаданных:
К телефонному разговору также будет приложено множество описательных метаданных, например, кто звонил, кому звонил и откуда был звонок.
Для изображения описательные метаданные могут быть очень подробными. Они включают в себя производителя камеры, любое используемое программное обеспечение для редактирования, время диафрагмы объектива, время экспозиции, ориентацию, цветовое пространство, яркость, владельца камеры и даже местоположение изображения по GPS.
Примеры метаданных
Метаданные можно применять для организации всех видов цифровой информации самыми разными способами. Вот несколько примеров того, как они используются службами, с которыми вы, вероятно, взаимодействуете каждый день.
Как удалить или уменьшить количество метаданных?
Сократить количество метаданных может быть сложно. Как правило, чем больше о вас знает служба, тем больше метаданных создается с каждым вашим шагом.
Создать шум
Самый продвинутый и эффективный способ сделать метаданные бесполезными — это вызвать шум, то есть создать дополнительные данные для создания неточных метаданных. Если ваш компьютер каждую секунду отправляет различные зашифрованные запросы к веб-страницам, будет сложно определить, какие сайты вы на самом деле читали и посещали. Но сделать это очень сложно, поскольку все же остается вероятность отфильтровать ваши действия от автоматических действий.
Остерегайтесь метаданных
Раскрывая информацию о себе, помните, что эти данные часто могут использоваться для вашей идентификации. Даже когда содержимое ваших сообщений зашифровано, может оставаться достаточно информации, чтобы узнать больше о том, кто вы и чем занимаетесь.
Метаданные: цифровые следы, которые мы (почти) не замечаем
Каждый день мы отправляем электронные письма, некоторые с файлами-вложениями. У всякого письма есть не только содержание, но и дата, и время отправки, заголовок, адрес отправителя, адрес получателя, тип вложения, его объем и прочие характеристики.
Это метаданные – информация, которая сопутствует содержанию. У любого файла, телефонного разговора, публикации в Facebook, книги, водительских прав, медицинской карты или видеофильма есть метаданные. Мы часто не замечаем их. Наше внимание сфокусировано на содержании. Но метаданные содержат больше ценной информации, чем мы привыкли думать. Иногда по метаданным можно выследить человека, получить на него компромат, полностью изменить его жизнь.
Как метаданные меняют жизнь людей
С конца 70-х в штате Канзас орудовал жестокий убийца. Полицейские прозвали его BTK (bind, torture, kill – «связывать, пытать, убивать»). Жертвами маньяка становились одинокие женщины и семьи. Жажда славы подталкивала BTK отправлять сообщения в полицию, газеты, радиостанции. Убийца рассказывал о деталях своих жутких преступлений, прилагал доказательства-фотографии, писал безумные стихи. В 2005 году BTK подбросил коробку со своими сочинениями на автостоянку, и тут его машину зафиксировала дорожная камера. Увы, расстояние было слишком велико. Черный внедорожник Jeep Grand Cherokee – вот и все, что удалось установить следователям. Вскоре психопат сделал попытку перейти с бумажных сочинений в электронный формат. Он отправил в полицию файл.
Следователи принялись изучать диск с файлом. Помимо послания маньяка, они обнаружили удаленный файл Microsoft Word и восстановили его. Содержание файла ничего не дало. Но в информации о документе значилась местная лютеранская церковь, а последняя редакция принадлежала некоему Деннису. Следователи быстро вышли на Денниса Рейдера, председателя церковного совета. Когда полиция подъехала к его дому, то увидела припаркованный черный Grand Cherokee. Анализ ДНК сделал возможным арест преступника. Сейчас Деннис Линн Рейдер, он же BTK, отбывает 10 пожизненных сроков в тюрьме строгого режима Эль Дорадо в Канзасе.
Так метаданные помогли найти убийцу.
Летом 2014 года 24-летний российский сержант Андрей Соткин опубликовал серию простеньких селфи с места службы. Издание Buzzfeed опубликовало мини-расследование: Соткин отправил свои фотографии в Instagram, но позабыл о метках геолокации. Buzzfeed сообщила, что координаты, где были сделаны фото, находились на территории Украины. (Официальная Москва отрицала нахождение российских военнослужащих в Украине.) Одни блогеры подхватили эту информацию как доказательство военного присутствия. Другие утверждали, что погрешность велика, фотографии сняты в России, и вообще вся история – фейк. Так метаданные легли в основу эпизода информационной войны.
В апреле 2017 года московского математика Дмитрия Богатова обвинили в призывах к терроризму и попытках организации массовых беспорядков. По версии следствия, Богатов под псевдонимом «Айрат Баширов» публиковал на форуме sysadmins.ru провокационные материалы о подготовке к вооруженному восстанию. Правоохранительные органы «вычислили» Богатова по IP-адресу. Впоследствии оказалось, что молодой математик держал на своем компьютере так называемый выходной узел сети Tor, международного проекта, нацеленного на обеспечение анонимности гражданских активистов и защиту их от преследований. Трафик злоумышленника прошел через компьютер Богатова. Это дало следователям повод прийти к математику с обыском. Богатов на несколько месяцев попал в СИЗО, полгода провел под домашним арестом. В мае 2018 года уголовное дело против него прекратили. Вскоре после этого Богатов и его жена подобру-поздорову уехали за границу. За то, что произошло, никто не понес никакого наказания. Таким образом, метаданные (IP-адрес) послужили поводом для того, чтобы государственная машина проехалась катком по невиновному человеку.
Даже если у правительства или корпораций нет доступа к содержанию переписки или разговоров, метаданные способны сказать очень многое. Так считают эксперты американской организации Electronic Frontier Foundation. Представьте, что человек: а) получил электронное письмо от службы диагностики кожных заболеваний; б) позвонил дерматологу; в) провел час на сайте с медицинскими советами; г) присоединился к закрытой группе, объединяющей людей, больных псориазом. Кажется, мы уже знаем главное, и это информация самого деликатного характера. А ведь мы не читали письмо, не слышали советов доктора, не заглядывали в закрытую группу.
Данные фотографии (EXIF). Можно узнать, в частности, модель камеры, параметры объектива, выдержку, диафрагму, фокусное расстояние, размеры снимка и его разрешение, дату, время и точные координаты съемки. Скриншот с сайта www.pic2map.com
Какие бывают метаданные
В 2011 году молодой немецкий политик Мальте Шпитц (Malte Spitz) добился от телекоммуникационного гиганта «Deutsche Telecom» передачи ему всех данных… о самом себе. Информации, которую провайдер собирал не для правоохранительных органов, а просто как часть своей рутинной работы. Метаданные показали, где находился г-н Шпитц в разное время дня на протяжении полугода, сколько раз звонил и отправлял сообщения. Интерактивная карта позволит вам немножко ощутить себя «Большим Братом». История Мальте Шпитца, помимо прочего, показывает, что технически можно собирать сразу несколько типов метаданных.
Исследователи и эксперты часто делят метаданные на три категории.
Метаданные хранятся в самых разных местах. Например, в музыкальных файлах популярного формата MP3 метаданные (здесь их называют ID3-теги) в специальных «фреймах» внутри самого файла. Когда вы открываете MP3-файл в своем плеере, то можете видеть имя исполнителя, название композиции, а то и жанр. Эту информацию плеер узнал из метаданных. У электронного письма метаданные находятся в заголовке. Обычно отправитель и получатель видят лишь часть метаданных в своих почтовых программах. Хотите взглянуть на заголовок? Если вы, скажем, пользователь GMail, откройте какое-нибудь из писем, нажмите на кнопку с тремя точками в правом верхнем углу (рядом со стрелочкой «Ответить») и выберите в меню «Показать оригинал».
Доступ к вашим метаданным могут иметь самые разные люди и организации. Например, заголовки писем доступны не только отправителю и адресату, но и почтовым провайдерам, а в рамках СОРМ – и спецслужбам. Владелец сайта, на который вы заходите, может узнать не только ваш IP-адрес, но и версии вашего браузера и операционной системы. Очень часто метаданные доступны широкой публике и никак не защищены – по своей природе или по человеческой небрежности.
Метаданные можно централизованно обрабатывать. Бывает, что типы метаданных «смешиваются». Одна и та же информация может в этих условиях считаться метаданными, в других – собственно данными (контентом). Возьмите, к примеру, тот же заголовок электронного письма: он может оказаться весьма содержательным. Для решения профессиональных задач эксперты в разных областях нередко разрабатывают свои, более узкие категории метаданных. Вы можете найти уйму информации о метаданных в Интернете. Вот, например, целый сайт, посвященный метаданным в фотографии.
Едва ли не в каждом детективном сериале встречается сцена, когда полицейский говорит охранникам (отеля, аэропорта, больницы или торгового центра):
– Покажите мне камеру в восточном конце коридора на третьем этаже. Вчерашнюю запись в промежуток с 8:40 до 8:50, пожалуйста.
Детективу не нужно просматривать все имеющиеся записи со всех камер. Он использует метаданные (местоположение камеры и время происшествия), чтобы ускорить поиск.
Государство и метаданные
Как правило, объем метаданных гораздо меньше объема самих данных. Поиск по метаданным существенно проще, чем поиск по содержанию (просмотр всех видеозаписей в надежде рано или поздно увидеть злодея с пистолетом и в темных очках).
С другой стороны, люди часто воспринимают метаданные как «вторичный элемент». Особенно это касается приверженцев идеи «Мне нечего скрывать». Защитой метаданных попросту пренебрегают.
Правительства разных стран учитывают эти факторы, когда требуют от телекоммуникационных компаний хранить метаданные определенное (нередко весьма долгое!) время для нужд правоохранительных органов и спецслужб. Эта проблема является частью обширной темы хранения данных о пользователях (data retention).
Так, швейцарское законодательство предписывает операторам связи хранить метаданные в течение полугода. Для сотовой связи это номера абонентов, идентифицирующие номера SIM-карт и телефонов, местонахождение звонящего, дата, время и продолжительность разговора. Европейские правозащитники ведут мониторинг ситуации с хранением метаданных в разных странах мира. Нажим со стороны правительств и правоохранительных органов, ратующих за хранение метаданных, не ослабевает. Правозащитники не остаются в долгу, иногда выигрывая по-крупному, как это, например, удалось ирландской организации «DIgital Rights Ireland», в 2014 году добившейся (через обращение в верховный суд своей страны) отмены Европейской директивы о хранении данных 2006 года. Активисты утверждали, что безосновательный сбор данных о людях, ни в чем не подозреваемых, нарушает их гражданские права.
В России в 2016 году был принят, а с 1 июля 2018 года вступил в силу печально известный «пакет Яровой». Он предписывает компаниям хранить данные пользователей в пределах полугода. Конкретные сроки устанавливает правительство. Оно и установило: шесть месяцев для звонков и сообщений, 30 дней для интернет-трафика с постепенным наращиванием объема хранения. А вот метаданные хранить нужно целых три года. Аргументы правозащитников, представителей IT-индустрии, юристов-международников и экономистов о том, что подобная практика чрезмерна, посягает на права граждан и вызывает необоснованную и непропорциональную нагрузку на операторов связи, не оказали должного влияния на власти.
Классический пример использования метаданных для идентификации пользователей – привязка различных сервисов и аккаунтов к номеру мобильного телефона. Который, в свою очередь, на территории России можно законно получить лишь при предъявлении паспорта. Даже если вы придумали для нового аккаунта «ВКонтакте» классный псевдоним и не поддались искушению разместить свое лицо на аватарке, останутся метаданные – номер мобильного телефона.
«Метаданные – это данные слежки. Собирать метаданные о людях означает следить за ними». Брюс Шнайер, американский специалист по цифровой безопасности (из личного блога).
Что с этим делать
Очень часто метаданные бывают полезны, например, для поиска информации. Многие метаданные неотделимы от самих данных (трудно представить документ, у которого нет даты создания или редактирования). Но можно попробовать не упрощать жизнь тому, кто решил составить досье на вас. Вот лишь несколько советов.
Автор благодарит Олега Ткачева, директора Центра поддержки НКО г. Кирова, за ценные замечания при подготовке статьи.