Трансформатор землетрясений - внимательная модель глубокого обучения для одновременного обнаружения землетрясений и выбора фазы | Nature Communications

Обнаружение сигналов землетрясений и выбор сейсмических фаз представляют собой сложные задачи при обработке зашумленных данных и мониторинге микроземлетрясений. Здесь мы представляем глобальную модель глубокого обучения для одновременного обнаружения землетрясений и выбора фазы. Выполнение этих двух связанных задач в тандеме улучшает производительность модели в каждой отдельной задаче за счет объединения информации по фазам и в полной форме сигналов землетрясений с помощью иерархического механизма внимания. Мы показываем, что наша модель превосходит предыдущие алгоритмы глубокого обучения и традиционные алгоритмы выбора и обнаружения фазы. Применяя нашу модель к 5-недельным непрерывным данным, записанным во время 2000 Тотториских землетрясений в Японии, мы смогли обнаружить и локализовать в два раза больше землетрясений, используя только часть (менее 1/3) сейсмических станций.Наша модель выбирает фазы P и S с точностью, близкой к ручной выборке специалистами-аналитиками; однако его высокая эффективность и более высокая чувствительность могут привести к обнаружению и характеристике большего количества меньших событий. Здесь авторы представляют модель глубокого обучения, которая одновременно обнаруживает сигналы землетрясений и измеряет время прихода сейсмических фаз. Модель особенно хорошо работает в случаях с высоким фоновым шумом и сложной задачей выбора прихода S-волны.Модель особенно хорошо работает в случаях с высоким фоновым шумом и сложной задачей выбора прихода S-волны.Модель особенно хорошо работает в случаях с высоким фоновым шумом и сложной задачей выбора прихода S-волны.

Обнаружение сигналов землетрясений и выбор сейсмических фаз представляют собой сложные задачи при обработке зашумленных данных и мониторинге микроземлетрясений. Здесь мы представляем глобальную модель глубокого обучения для одновременного обнаружения землетрясений и выбора фазы. Выполнение этих двух связанных задач в тандеме улучшает производительность модели в каждой отдельной задаче за счет объединения информации по фазам и в полной форме волны сигналов землетрясений с помощью иерархического механизма внимания. Мы показываем, что наша модель превосходит предыдущие алгоритмы глубокого обучения и традиционные алгоритмы выбора и обнаружения фазы. Применяя нашу модель к 5-недельным непрерывным данным, записанным во время 2000 Тотториских землетрясений в Японии, мы смогли обнаружить и локализовать в два раза больше землетрясений, используя только часть (менее 1/3) сейсмических станций.Наша модель выбирает фазы P и S с точностью, близкой к ручной выборке специалистами-аналитиками; однако его высокая эффективность и более высокая чувствительность могут привести к обнаружению и характеристике большего количества меньших событий.

Вступление

Глубокое обучение - это широко применяемый и эффективный метод для широкого круга приложений 1. Для мониторинга землетрясений растет потребность в более эффективных и надежных инструментах для обработки все больших объемов данных, он концептуально прост и имеет большое количество доступных помеченных данных, что делает обнаружение землетрясений и выбор фазы привлекательными целями для новой волны машинного обучения. приложения в сейсмологии. На сегодняшний день обнаружение сигналов землетрясений и выбор фазы составляют самую большую часть этого относительно молодого подполя 2, 3, 4, 5, 6, 7, 8, 9, 10. Несмотря на различия в подходах и результатах, в большинстве этих исследований обнаруживаются важные преимущества методов, основанных на глубоком обучении, по сравнению с традиционными подходами 11,12.

Обнаружение сигнала землетрясения и выбор фазы являются серьезными проблемами при мониторинге землетрясений. Обнаружение относится к идентификации сигналов землетрясений среди широкого спектра сигналов, не связанных с землетрясениями, и шума, регистрируемого сейсмическим датчиком. Выбор фазы - это измерение времени прихода отдельных сейсмических фаз (фаз P-волны и S-волны) в сигнале землетрясения, которые используются для оценки местоположения землетрясения. Хотя эти две задачи имеют некоторое сходство, их цели не совсем совпадают. Сведение к минимуму количества ложноотрицательных и ложноположительных результатов является основной целью обнаружения; тем не менее, при выборе фазы основное внимание уделяется увеличению временной точности выбора времени прибытия. Это связано с крайней чувствительностью оценок местоположения землетрясений к измерениям времени прихода землетрясений - 0.Ошибка в 01 секунда при определении прихода P-волны может быть выражена в десятки метров погрешности определения местоположения. Хотя как обнаружение, так и выборку можно рассматривать как определение различных вариаций в данных временных рядов, выбор фазы является локальной проблемой по сравнению с обнаружением, которое использует более глобальное представление полной формы волны и состоит из информации из нескольких сейсмических фаз, включая рассеянные волны. Из-за этого в предыдущих исследованиях машинного обучения к этим задачам подходили индивидуально, используя отдельные сети; однако эти задачи тесно связаны друг с другом. На практике аналитики сначала смотрят на всю форму волны на нескольких станциях, чтобы определить согласованные элементы сигнала землетрясения (например, P, S, кодовые и поверхностные волны) с определенным порядком (P-волна всегда приходит до S-волны,объемные волны более высокой частоты всегда предшествуют рассеивающим поверхностным волнам и т. д.), чтобы определить, является ли сигнал землетрясением. Затем они сосредотачиваются на каждой фазе, чтобы точно выбрать время прибытия. Эта практика указывает на взаимосвязь этих двух задач и важность контекстной информации при моделировании сигналов землетрясений.

Модели обнаружения / выбора с глубоким обучением работают, изучая общие характеристики форм волн землетрясений и сейсмических фаз из высокоуровневых представлений. Здесь мы проверяем гипотезу о том, что лучшее представление, полученное путем включения контекстной информации в формы волны землетрясения, приведет к созданию лучших моделей. Мы ожидаем, что не все части сейсмического сигнала одинаково важны для конкретной задачи классификации. Следовательно, полезно определить соответствующие разделы для моделирования взаимодействия локальных (узкие окна вокруг прихода определенной фазы) и глобальных (полная форма волны) сейсмических характеристик. Мы достигаем этого путем включения в нашу сеть механизма внимания 13. Механизмы внимания в нейронных сетях вдохновлены визуальным вниманием человека.Люди сосредотачиваются на определенной области изображения с высоким разрешением, воспринимая окружающее изображение с низким разрешением, а затем со временем регулируют фокусную точку. Наша модель имитирует это с помощью двухуровневого механизма внимания: один на глобальном уровне для идентификации сигнала землетрясения во входных временных рядах, а другой на локальном уровне для определения различных сейсмических фаз в этом сигнале землетрясения.

Мы представляем новую модель глубокого обучения (EQTransformer Footnote 1) для одновременного обнаружения сигналов землетрясений и выбора первых фаз P и S на данных одной станции, записанных на локальных эпицентральных расстояниях (

Результаты

Сетевая архитектура

Наша нейронная сеть имеет многозадачную структуру, состоящую из одного очень глубокого кодировщика и трех отдельных декодеров, состоящих из одномерных сверток, двунаправленной и однонаправленной долговременной памяти (LSTM), сети в сети, остаточных соединений. , слои с прямой связью, трансформатор и самовоспринимающие слои (рис. 1). Более подробная информация представлена ​​в разделе о методах. Кодер потребляет сейсмические сигналы во временной области и генерирует высокоуровневое представление и контекстную информацию об их временных зависимостях. Затем декодеры используют эту информацию для сопоставления высокоуровневых характеристик с тремя последовательностями вероятностей, связанных с: наличием сигнала землетрясения, P-фазой и S-фазой для каждой временной точки.

Наша сетевая архитектура. Полная информация о каждом блоке представлена ​​в разделе о методах. Сверточные слои читаются как (количество ядер) kr (размер ядра).

В моделях с самовниманием объем памяти растет пропорционально длине последовательности; следовательно, мы добавляем секцию понижающей дискретизации, состоящую из сверточных слоев и слоев максимального пула, к передней части кодировщика. Эти функции с пониженной дискретизацией преобразуются в высокоуровневые представления посредством серии остаточной свертки и блоков LSTM. Секция глобального внимания в конце кодировщика направлена ​​на привлечение внимания сети к частям, связанным с сигналом землетрясения. Эти высокоуровневые характеристики затем напрямую отображаются в вектор вероятностей, представляющий наличие сигнала землетрясения (обнаружение), с использованием одной ветви декодера. Две другие ветви декодера связаны с P-фазой и S-фазой, соответственно, в которых LSTM / локальный блок внимания размещается в начале.Это локальное внимание будет дополнительно направлять внимание сети на локальные особенности в форме волны землетрясения, которые связаны с отдельными сейсмическими фазами. Остаточные соединения в каждом блоке и такие методы, как сеть в сети, помогают расширить глубину сети, сохраняя при этом управляемость частотой ошибок и скоростью обучения. В результате наша очень глубокая сеть с 56 слоями имеет всего около 372 тыс. Обучаемых параметров. Дизайн сетевой архитектуры основан на экспертных знаниях в предметной области. Оптимизация и выбор гиперпараметров основаны на экспериментах на большом количестве прототипов сетей.Остаточные соединения в каждом блоке и такие методы, как сеть в сети, помогают расширить глубину сети, сохраняя при этом управляемость частотой ошибок и скоростью обучения. В результате наша очень глубокая сеть с 56 слоями имеет всего около 372 тыс. Обучаемых параметров. Дизайн сетевой архитектуры основан на экспертных знаниях в предметной области. Оптимизация и выбор гиперпараметров основаны на экспериментах на большом количестве прототипов сетей.Остаточные соединения внутри каждого блока и такие методы, как сеть в сети, помогают расширить глубину сети, сохраняя при этом управляемость частотой ошибок и скоростью обучения. В результате наша очень глубокая сеть с 56 слоями имеет всего около 372 тыс. Обучаемых параметров. Дизайн сетевой архитектуры основан на экспертных знаниях в предметной области. Оптимизация и выбор гиперпараметров основаны на экспериментах на большом количестве прототипов сетей.

Данные и маркировка

Мы использовали набор данных STanford EArthquake Dataset (STEAD) 13 для обучения сети. STEAD - это крупномасштабный глобальный набор данных с маркированными сигналами землетрясений и неземлетрясений. Здесь мы использовали формы волны землетрясения 1 М и шума 300 К (включая как окружающий, так и культурный шум), записанные сейсмическими станциями на эпицентральных расстояниях до 300 км. Волновые формы землетрясений связаны с землетрясениями порядка 450 K с разнообразным географическим распределением (рис. 2). Большинство этих землетрясений с магнитудой М 2,5 зарегистрированы в пределах 100 км от эпицентра. Полное описание свойств набора данных можно найти в 13. Хотя STEAD содержит волновые формы землетрясений из различных географических регионов и тектонических условий, в нем нет сейсмограмм землетрясений из Японии. Мы разбиваем данные на обучение (85%), проверку (5%),и тестовые (10%) наборы случайным образом. Форма волны длится 1 минуту с частотой дискретизации 100 Гц и имеет полосовую фильтрацию от 1,0 до 45,0 Гц. Этикетка в форме коробки используется в качестве основы для обнаружения. В этом двоичном векторе соответствующие отсчеты от прибытия P до прибытия S + 1,4 × (время S - P) установлены на 1, а остальные на 0. Мы протестировали три различных формы: прямоугольный, гауссовский и треугольный, чтобы пометить фазовые заезды. Треугольная маркировка привела к меньшим потерям и более высокому F-баллу во время нашей процедуры выбора гиперпараметров и используется для окончательной модели. В этой форме вероятности P и S устанавливаются равными 1 при первом приходе волны P и S и линейно уменьшаются до 0 в пределах 20 отсчетов до и 20 отсчетов после каждого прихода фазы.Форма волны длится 1 минуту с частотой дискретизации 100 Гц и имеет полосовую фильтрацию от 1,0 до 45,0 Гц. Этикетка в форме коробки используется в качестве основы для обнаружения. В этом двоичном векторе соответствующие отсчеты от прибытия P до прибытия S + 1,4 × (время S - P) установлены на 1, а остальные на 0. Мы протестировали три различных формы: прямоугольный, гауссовский и треугольный, чтобы пометить фазовые заезды. Треугольная маркировка привела к меньшим потерям и более высокому F-баллу во время нашей процедуры выбора гиперпараметров и используется для окончательной модели. В этой форме вероятности P и S устанавливаются равными 1 при первом приходе волны P и S и линейно уменьшаются до 0 в пределах 20 отсчетов до и 20 отсчетов после каждого прихода фазы.Форма волны длится 1 минуту с частотой дискретизации 100 Гц и имеет полосовую фильтрацию от 1,0 до 45,0 Гц. Этикетка в форме коробки используется в качестве основы для обнаружения. В этом двоичном векторе соответствующие отсчеты от прибытия P до прибытия S + 1,4 × (время S - P) установлены на 1, а остальные на 0. Мы протестировали три различных формы: прямоугольный, гауссовский и треугольный, чтобы пометить фазовые заезды. Треугольная маркировка привела к меньшим потерям и более высокому F-баллу во время нашей процедуры выбора гиперпараметров и используется для окончательной модели. В этой форме вероятности P и S устанавливаются равными 1 при первом приходе волны P и S и линейно уменьшаются до 0 в пределах 20 отсчетов до и 20 отсчетов после каждого прихода фазы.соответствующие выборки от P прихода до S прихода + 1,4 × (время S - P) установлены на 1, а остальные на 0. Мы протестировали три различных формы: прямоугольный, гауссовский и треугольный, чтобы пометить приход фазы. Треугольная маркировка привела к меньшим потерям и более высокому F-баллу во время нашей процедуры выбора гиперпараметров и используется для окончательной модели. В этой форме вероятности P и S устанавливаются равными 1 при первом приходе волны P и S и линейно уменьшаются до 0 в пределах 20 отсчетов до и 20 отсчетов после каждого прихода фазы.соответствующие выборки от прихода P до прибытия S + 1,4 × (время S - P) установлены на 1, а остальные на 0. Мы протестировали три различных формы: прямоугольный, гауссовский и треугольный, чтобы пометить приход фазы. Треугольная маркировка привела к меньшим потерям и более высокому F-баллу во время нашей процедуры выбора гиперпараметров и используется для окончательной модели. В этой форме вероятности P и S устанавливаются равными 1 при первом приходе волны P и S и линейно уменьшаются до 0 в пределах 20 отсчетов до и 20 отсчетов после каждого прихода фазы.Вероятности P и S устанавливаются равными 1 при первом приходе волны P и S и линейно уменьшаются до 0 в пределах 20 отсчетов до и 20 отсчетов после каждого прихода фазы.Вероятности P и S устанавливаются равными 1 при первом приходе волны P и S и линейно уменьшаются до 0 в пределах 20 отсчетов до и 20 отсчетов после каждого прихода фазы.

Географическое распределение местоположений станций, записывающих сейсмограммы шума 300k и сейсмограммы землетрясений 1M в наборе данных STanford EArthquake Dataset (STEAD), использованном в этом исследовании.

Подготовка

И для сверточных, и для LSTM-модулей все матрицы весов и фильтров были инициализированы нормальным инициализатором 14 Xavier, а векторы смещения были установлены на нули. Мы использовали ADAM 15 с различной скоростью обучения для оптимизации, в то время как скорость обучения менялась во время обучения. Модель заняла O (89) часов, чтобы завершить обучение с использованием 4 параллельных графических процессоров Tesla-V100 в рамках тензорного потока 16. Обучение остановлено, когда потеря валидации не улучшилась в течение 12 последовательных эпох. Данные были дополнены добавлением вторичного сигнала землетрясения в пустую часть трассы, добавлением случайного уровня гауссовского шума в форму волны землетрясения, случайным смещением события в трассе - путем вращения массива, случайного добавления пропусков (обнуление короткого промежутка времени) в сигналах шума и случайного отбрасывания одного или двух каналов (обнуление значений одного или двух каналов) с помощью 0.3, 0,5, 0,99, 0,2 и 0,3 вероятности соответственно. Половина данных в каждом пакете - это расширенные версии сигналов другой половины. Увеличение и нормализация данных (по стандартному отклонению) выполняются одновременно во время обучения на 24 процессорах параллельно. Мы использовали коэффициент отсева 0,1 для всех слоев отсева как во время обучения, так и во время тестирования.

Изучение внимания сети

Веса внимания определяют, какую часть каждого входного состояния следует учитывать для прогнозирования каждого выхода, и их можно интерпретировать как вектор весов важности. Явно визуализируя эти веса внимания, мы можем видеть, на каких частях входной последовательности нейронная сеть научилась фокусироваться.

На рисунке 3 представлены выходные данные каждого из этих уровней внимания (суммирование скрытых состояний на всех других временных шагах, взвешенных по их оценке) для одного конкретного события из набора оценки. Мы видим, что сеть научилась сосредотачиваться на разных частях сигнала на разных уровнях внимания. Это выделяет наиболее полезные части входного сигнала для каждой задачи. Более короткий путь через декодер обнаружения и более высокие потери (из-за большей длины метки), естественно, заставляют сеть сначала научиться различать сигнал землетрясения во временном ряду. Мы также можем видеть это по кривым обучения (дополнительный рис. 2). Это имитирует рабочий процесс принятия решений сейсмическим аналитиком. Второй трансформатор (I на рис. 1) в конце секции энкодера,в основном передает информацию, соответствующую сигналу землетрясения, на последующие декодеры. Это означает, что кодировщик учится выбирать, какие части сигнала содержат наиболее важную информацию для обнаружения и выбора фазы. Эта информация напрямую используется декодером обнаружения для прогнозирования наличия сигнала землетрясения во временном ряду. Слои местного внимания в начале декодеров P и S дополнительно фокусируются на меньших участках в пределах формы волны землетрясения, чтобы делать свои прогнозы. Баллы согласования нормализованы и могут рассматриваться как распределения вероятностей. Таким образом, мы можем интерпретировать иерархические механизмы внимания в нашей сети как условные вероятности:Это означает, что кодировщик учится выбирать, какие части сигнала содержат наиболее важную информацию для обнаружения и выбора фазы. Эта информация напрямую используется декодером обнаружения для прогнозирования наличия сигнала землетрясения во временном ряду. Слои местного внимания в начале декодеров P и S дополнительно фокусируются на меньших участках в пределах формы волны землетрясения, чтобы делать свои прогнозы. Баллы согласования нормализованы и могут рассматриваться как распределения вероятностей. Таким образом, мы можем интерпретировать иерархические механизмы внимания в нашей сети как условные вероятности:Это означает, что кодировщик учится выбирать, какие части сигнала содержат наиболее важную информацию для обнаружения и выбора фазы. Эта информация напрямую используется декодером обнаружения для прогнозирования наличия сигнала землетрясения во временном ряду. Слои местного внимания в начале декодеров P и S дополнительно фокусируются на меньших участках в пределах формы волны землетрясения, чтобы делать свои прогнозы. Баллы согласования нормализованы и могут рассматриваться как распределения вероятностей. Таким образом, мы можем интерпретировать иерархические механизмы внимания в нашей сети как условные вероятности:в пределах формы волны землетрясения, чтобы делать свои прогнозы. Баллы согласования нормализованы и могут рассматриваться как распределения вероятностей. Таким образом, мы можем интерпретировать иерархические механизмы внимания в нашей сети как условные вероятности:в пределах формы волны землетрясения, чтобы делать свои прогнозы. Баллы согласования нормализованы и могут рассматриваться как распределения вероятностей. Таким образом, мы можем интерпретировать иерархические механизмы внимания в нашей сети как условные вероятности:П( е а р т ч q у а к е с и г н а ли н п у т ш а в е ф о р м) = э н к о д е р( и н п у т ш а в e f o r m) и P( P_ ph a s ei n p u t w a v e f o r m) = P_ d e c o d e r( P( e a r t h q u a k e s i g n a li н п у т в а в е ф о рм)).

Входной сигнал перекрыты контекстуальной информации - вывод внимания слоев для болеетрансформатора (I на фиг.1), бместного внимания для P-фазы (II на фиг.1), а также слокального внимания для S-фазы (III на фиг.1 ).

Результаты и сравнение с другими методами

Мы использовали более 113 тысяч тестовых сигналов (примеры как землетрясений, так и шума) для оценки и сравнения характеристик обнаружения и выбора EQTransformer с другими традиционными методами глубокого обучения. Модели глубокого обучения, используемые здесь для сравнений, представляют собой предварительно обученные модели, основанные на различных обучающих наборах, и все они применяются к общему набору тестов из STEAD. Данные тестового набора содержат 1-минутные 3C-волны. Все тесты проводятся без дополнительной фильтрации тестовых данных. На рис. 4 показаны сетевые прогнозы для 4 репрезентативных выборок из тестового набора (рис. 4a – d). Модель очень хорошо работает для землетрясений с различной формой волны. Модель способна сохранять глобальный вид для обнаружения, выбирая при этом четкое время прибытия с высоким временным разрешением. Это хорошо видно из примера на рис. 4б,где две сильные и явно отдельные волны обнаруживаются как части одного события, а не как два отдельных события. Очень глубокая структура сети делает ее менее чувствительной к уровню шума и хорошо работает для небольших событий с высоким фоновым шумом (рис. 4c, d). Более того, предоставленные неопределенности могут быть полезны для выявления ненадежных прогнозов, даже если выходная вероятность высока (рис. 4c).

Четыре репрезентативных сигнала ( a- d) из тестового набора и четыре сигнала от применения модели к непрерывным данным в Тоттори, Япония ( e) и Редгкресте, Калифорния ( f- h), демонстрируют производительность модели на различных типах данных. Каждая форма волны длится 60 секунд со 100 выборками в секунду с полосой низких частот, отфильтрованной в диапазоне 1-45 Гц. Каждая панель показывает три формы волны канала вверху и прогнозы выходных данных модели для обнаружения сигнала землетрясения, P-прихода и S-прихода внизу. В пунктахот aдо dвертикальные цветные линии на первых двух каналах - это выбор времени прибытия вручную из каталогов. а- событие с местной магнитудой 2,2, зарегистрированное на расстоянии 55 км от эпицентра, b- событие с местной магнитудой 4,3, зарегистрированное в 173 км от эпицентра, c- событие с местной магнитудой 0,1, зарегистрированное на расстоянии 38 км. от эпицентра, а d- событие с местной магнитудой 2.0, зарегистрированное в 110 км от эпицентра. Выходные вероятности представлены в виде распределений, которые могут представлять вариации или неопределенности модели. от eдо h- это обнаруженные события после применения модели к непрерывным данным, представляющие производительность модели, когда существует более одного события в 1-минутном окне ( eи f), когда данные содержат пробелы, заполненные нулями ( e), когда событие происходит около края ( e), когда два канала повреждены или зашумлены ( g), или когда существуют данные только одного компонента ( h).

Мы также применили модель к непрерывным данным. Единственные шаги повторной обработки, которые необходимо выполнить перед тестом / прогнозированием, - это заполнение пробелов, удаление тренда, полосовая фильтрация и повторная выборка данных до 100 Гц. Аугментации применяются только во время тренировочного процесса. После предварительной обработки непрерывные данные можно разделить на 1-минутные окна (предпочтительно с некоторым перекрытием). Модель может быть применена к одному или к группе этих 1-минутных срезов. Нормализация выполняется во время подачи данных в модель. На рис. 4e – h представлены результаты применения модели к непрерывным данным, зарегистрированным в Риджкресте, Калифорния, и Тоттори, Япония.

Аугментации, использованные во время тренировочного процесса, сыграли важную роль в работе окончательной модели. Время прихода P сгруппировано в первой четверти окон обучающих данных, и каждая кривая содержит только 1 событие. Однако рис. 4e, f показывает, что независимо от этих характеристик в обучающем наборе, модель работает хорошо, когда существует более одного события в 1-минутном окне и в различные моменты времени. Модель может обнаруживать / выбирать события, которые происходят на краях (рис. 4e), пока в окне существует 0,2 с P и S. Дополнения предотвращают появление ложных срабатываний модели при резких изменениях из-за заполнения пробелов в непрерывных данных (рис. 3e). Наша модель работает для одноканальных данных (рис. 3h) или когда другие каналы нарушены или в них преобладает шум (рис. 3g).Дополнительные примеры работы модели в различных случаях приведены в дополнительных материалах (дополнительный рис. 3–6).

Мы представляем эффективность обнаружения на тестовом наборе с помощью матрицы неточностей (дополнительный рисунок 7). Наш метод привел только к 1 ложноположительному результату с 0 ложноотрицательным результатом (отсутствие пропущенных событий) из 113 тыс. Тестовых образцов с использованием порогового значения 0,5 (дополнительный рисунок 8). Чтобы сравнить характеристики, мы применили три детектора с глубоким обучением (DetNet 5, Yews 4 и CRED 7) и один традиционный (STA / LTA 11) детектор к одному и тому же набору тестов (Таблица 1). Мы должны признать, что каждый из этих подходов требует определенной настройки (традиционные и глубокие детекторы / сборщики), и что производительность может варьироваться в зависимости от этой настройки. Предлагаемая нами модель превосходит другие методы по показателю F1. CRED также содержит как сверточные, так и повторяющиеся блоки и был обучен на одном и том же наборе данных (STEAD); Однако,его производительность не достигла уровня EQTransformer. Это указывает на положительные эффекты встроенного механизма внимания и использования более глубокой сети для обнаружения сигналов землетрясений. DetNet была обучена на гораздо меньшем наборе данных по сравнению с Yews, но у него лучшая производительность; однако ни DetNet, ни Yews не достигают результатов STA / LTA по шкале F, а STA / LTA не требует обучения.

Теперь мы сравним производительность выбора с пятью методами глубокого обучения (PhaseNet 8, GPD 10, PpkNet 5, Yews 4, PickNet 2) (дополнительный рис.9) и тремя традиционными (Kurtosis 17, FilterPicker 18 и AIC 19) (дополнительный рис. 10) автосборщики. Мы не нашли хорошо документированного кода или обученной модели для других средств выбора глубокого обучения, упомянутых в разделе 2. Это предварительно обученные модели, основанные на наборах данных разного размера и из разных регионов, чтобы оценить их обобщение. Список этих обучающих наборов приведен в таблицах 2 и 3 для выбора P и S. Мы оцениваем производительность каждого сборщика с использованием 7 баллов (стандартное отклонение ошибки, средняя ошибка, точность, отзывчивость, оценка F1, средняя абсолютная ошибка и средняя абсолютная ошибка в процентах). Выбор считался истинно положительным, когда его абсолютное расстояние от земли было меньше 0.5 секунд. EQTransformer увеличивает F-баллы для выбора P и S. Улучшения в пиках P-волны более значительны, чем в пикингах с S-образными зубцами. Это может быть связано с тем, что выбор S-волн сложнее и подвержен большему количеству ошибок, что может привести к более высокой ошибке маркировки в обучающем наборе. Распределение ошибок для некоторых сборщиков глубокого обучения неоднородно и периодически группируется, возможно, из-за их схемы движущегося окна. Все эти модели (GPD 10, PpkNet 5 и Yews 4) используют более широкие метки по сравнению с другими моделями (PhaseNet 8, PickNet 2 и EQTransformer). Однако трудно сузить точную причину их ненормального распределения ошибок.Это может быть связано с тем, что выбор S-волн сложнее и подвержен большему количеству ошибок, что может привести к более высокой ошибке маркировки в обучающем наборе. Распределение ошибок для некоторых сборщиков глубокого обучения неоднородно и периодически группируется, возможно, из-за их схемы движущегося окна. Все эти модели (GPD 10, PpkNet 5 и Yews 4) используют более широкие метки по сравнению с другими моделями (PhaseNet 8, PickNet 2 и EQTransformer). Однако трудно сузить точную причину их ненормального распределения ошибок.Это может быть связано с тем, что выбор S-волн сложнее и подвержен большему количеству ошибок, что может привести к более высокой ошибке маркировки в обучающем наборе. Распределение ошибок для некоторых сборщиков глубокого обучения неоднородно и периодически группируется, возможно, из-за их схемы движущегося окна. Все эти модели (GPD 10, PpkNet 5 и Yews 4) используют более широкие метки по сравнению с другими моделями (PhaseNet 8, PickNet 2 и EQTransformer). Однако трудно сузить точную причину их ненормального распределения ошибок.Все эти модели (GPD 10, PpkNet 5 и Yews 4) используют более широкие метки по сравнению с другими моделями (PhaseNet 8, PickNet 2 и EQTransformer). Однако трудно сузить точную причину их ненормального распределения ошибок.Все эти модели (GPD 10, PpkNet 5 и Yews 4) используют более широкие метки по сравнению с другими моделями (PhaseNet 8, PickNet 2 и EQTransformer). Однако трудно сузить точную причину их ненормального распределения ошибок.

Применение в других регионах

Набор данных STEAD, используемый для обучения нашей модели, не содержит данных о сигналах из Японии. Это делает Японию идеальным местом для тестирования производительности и обобщения нашей модели. Выберем область афтершоков мощностью 2000 МВт.Землетрясение 6.6 в западной части Тоттори для этого теста. Наша модель детектора / фазовращателя была применена к непрерывным данным 18 станций HiNet с 6 октября по 17 ноября 2000 г. Это часть станций (57), которые первоначально использовались для изучения этой последовательности Японским метеорологическим агентством (JMA). Модуль прогнозирования в коде EQTransformer выводит результаты, когда по крайней мере одна фаза (P или S) с вероятностью выше указанных пороговых значений существует в течение периода времени с высокой вероятностью землетрясения. Здесь мы использовали пороговые значения 0,5, 0,3 и 0,3 для обнаружения, выбора P и S соответственно. Размер партии 500 и 30% перекрытие используется во время предварительной обработки. Мы связали выбор фазы с отдельными событиями на основе времени обнаружения. Hypoinverse 20 и HypoDD 21 используются для определения местоположения и перемещения связанных событий.При перемещении использовались как разница во времени в пути, так и взаимная корреляция.

Мы зарегистрировали и локализовали 21 092 события за этот период времени (рис. 5). Это более чем 2-кратное увеличение количества событий по сравнению с Fukuyama et al. 22, которые перенесли 8521 мероприятие в течение того же периода времени с тщательно подобранными этапами, предоставленными JMA. В нашем каталоге представлены практически все события, о которых сообщает JMA. Мы также отмечаем, что наши результаты были получены с использованием только части станций, которые использовались Fukuyama et al. 22. Около 15% связанных событий не попали в окончательный каталог; однако это может быть связано с нашим упрощенным подходом к ассоциациям, и их трудно отнести к ложным срабатываниям.

Сейсмичность региона Тоттори в период с 6 октября по 17 ноября 2000 г. aперенесенные события в Фукуяма и др. 22 с использованием ручного выбора фазы JMA. bперенесенные события с помощью автоматического выбора фазы (EQTransformer) в этом исследовании. cРаспределение 57 сейсмических станций, используемых JMA и Fukuyama et al. 22- дневноераспределение 18 станций, используемых в нашем исследовании для обнаружения и определения местоположения землетрясений в районе Тоттори.

Мы использовали соотношение местной магнитуды 23, откалиброванное с использованием сообщенных JMA магнитуд для оценки магнитуд перемещенных событий. Большинство недавно обнаруженных и локализованных событий в нашем каталоге - это более мелкие землетрясения с более шумной формой волны по сравнению с теми, о которых ранее сообщал JMA (рис. 6a). Мы оцениваем величины полноты (Mc) для JMA и нашего каталога как 1.82 и 1.50 соответственно с использованием метода максимальной кривизны 24. Хотя результат распределения частоты и магнитуды (рис. 6a) показывает, что наш подход с глубоким обучением эффективен при обнаружении и характеристике микроземлетрясений до 20 раз меньшей силы, для уменьшения общей магнитуды требуются другие факторы, такие как лучшее покрытие сети и меньшее расстояние между станциями. полноты 25,26.

ачастота-магнитуда распределение расположенных событий в каталоге ЕГО и перемещаемых события в нашем каталоге (EQTransformer). Магнитуды для всех событий были оценены с использованием местной шкалы магнитуды. bРаспределение разницы во времени прибытия (в секундах) между пиками P (слева) и S (справа) аналитиками JMA и EQTransformer.

В общей сложности аналитики JMA выбрали 279 104 времени прибытия P и S на 57 станциях, в то время как EQTransformer смог выбрать время прибытия 401 566 P и S на 18 из этих станций (из-за недоступности данных для других станций). Чтобы сравнить ручные отборы JMA с нашими автоматическими подборками, мы использовали около 42 000 отборов на общих станциях и рассчитали разницу во времени прибытия. Распределение этих разностей времени прихода между пиками ручного и глубокого обучения для P- и S-волн показано на рис. 6b. Стандартное отклонение различий между пиками составляет около 0,08 секунды со средней абсолютной ошибкой около 0,06 секунды или 6 отсчетов. Результаты немного лучше для выбора S. Средняя ошибка составляет всего 1 образец (0,01 с).

Обсуждение

Лучшая производительность предложенного метода выбора фазы может быть обусловлена ​​несколькими факторами (например, качеством и количеством обучающего набора, архитектурным дизайном, механизмом внимания, глубиной сети, дополнениями, используемыми в процессе обучения, и т. Д.). Механизм внимания помогает включить глобальные и локальные функции в полную форму волны. Более глубокая сеть может привести к большей избирательной способности за счет обучения более нелинейной функции отображения.

Судя по результатам набора тестов для нашего сборщика, ошибки, похоже, коррелируют с уровнем шума (дополнительный рисунок 11). Аналогичная корреляция наблюдается между вариациями прогнозов и уровнем фонового шума (дополнительный рисунок 12). Мы не обнаружили четкой корреляции между оцененными эпистемическими неопределенностями (вариациями вероятностей выхода) и ошибками выбора. Алеаторные неопределенности могут дать более точные оценки для выбора доверительных интервалов; однако такая оценка случайной неопределенности для задач классификации затруднительна 27. Даже в этом случае знание эпистемических неопределенностей и изменчивости выходных вероятностей может быть полезно для уменьшения количества ложных срабатываний.

На дополнительном рисунке 13 представлены примеры культурного шума, зарегистрированного в Западном Техасе, приводящего к ложноположительным результатам. Импульсивный характер и частотный диапазон этих вступлений затрудняет их дифференциацию от волны землетрясения, особенно когда используется короткое окно вокруг прибытия. Это может привести к предсказанию высокой вероятности выбора P или S. Однако вероятности обнаружения, основанные на более длинных окнах, демонстрируют более высокие вариации / неопределенности, которые можно использовать для устранения ложных дефектов. Включение большого количества различных антропогенных и атмосферных шумов в обучающую выборку было бы эффективным способом уменьшить количество таких ложных срабатываний; однако надежная маркировка такого шума сама по себе является сложной задачей. Другим решением могло бы быть включение спектральных характеристик сигналов в процессе обучения 7.

Выбор зубцов P имеет тенденцию быть более неопределенным для сигналов, записанных на больших эпицентральных расстояниях (дополнительный рисунок 12). Эти более высокие погрешности могут быть связаны с меньшим количеством сигналов на большом расстоянии в обучающей выборке и тем фактом, что P-волны могут быть более трудными для выбора, когда появляется первый приход или является ныряющей волной Pn. Высокочастотная фильтрация данных с частотой 1,0 Гц также может усложнять выбор начального начала. Как и ожидалось, мы наблюдаем более высокую неопределенность при выборе более мелких событий (дополнительный рис. 12). Мы также отмечаем, что более низкие вероятности предсказания демонстрируют более высокий уровень неопределенности и что модель выводит более низкие вероятности для пиков P-волн с более низким SNR, большим расстоянием между станциями или меньшей величиной. Для S-пиков такие тенденции не столь сильны (дополнительный рис. 14).

Географическое положение и размер обучающих данных не кажутся основными факторами, влияющими на производительность. PhaseNet имеет очень хорошую производительность, даже несмотря на то, что она была обучена только на данных из Северной Калифорнии. Это указывает на то, что модели глубокого обучения, обученные набором данных в конкретном регионе, могут хорошо обобщаться на другие регионы, и что средства выбора глубокого обучения для большинства целей можно использовать в готовом виде без переобучения. PpkNet 5, который был обучен 30K сигналами, привел к более высоким F-баллам как для P, так и для S-волн по сравнению с другими моделями, которые были построены с использованием гораздо более крупных обучающих наборов. Это предполагает, что другие факторы, такие как тип сети (например, рекуррентная или сверточная), процесс обучения (например, использование дополнений) и / или качество обучающего набора могут играть более важную роль, чем размер обучающего набора.

На точность сбора, похоже, больше влияет процедура маркировки и обучения. Например, случайные распределения ошибок для P-пиков в результатах Yews 4, GPD 10 и PpkNet 5 могут быть связаны с их процедурой обучения, которая делает их чувствительными к временам прихода, сгруппированным в определенные моменты времени. По сравнению с традиционными сборщиками, методы, основанные на глубоком обучении, лучше работают с более шумными сигналами, особенно с S-волнами (рис. 7).

Выбор фазы P ( a) и S ( b) в зависимости от отношения сигнал / шум (SNR) для трех модулей глубокого обучения и трех традиционных сборщиков.

Проведение сравнительного анализа моделей с разными свойствами - очень сложная задача. В разных моделях использовались разные подходы к маркировке и использовались разные конструкции сетей. Это приводит к различным наборам гиперпараметров, которые могут сильно повлиять на производительность модели. Качество обучающего набора и процедура обучения - это другие важные факторы, влияние которых сложно измерить и измерить. С другой стороны, создание справедливой среды для сравнения и использование надежного и независимого эталонного теста важны для более объективной оценки. Несмотря на все эти недостатки, мы надеемся инициировать такие усилия и призываем наших коллег в сейсмологическом сообществе проводить более тщательные испытания и сравнительный анализ, чтобы извлечь уроки и развить предыдущие попытки.

Традиционные сборщики относительно хорошо справляются с точностью выбора времени прибытия, в то время как их основным недостатком, как правило, является более низкий уровень отзыва и более низкая производительность при выборе S-фаз (таблицы 2 и 3). Несимметричные распределения ошибок традиционных сборщиков (дополнительные рисунки 9 и 10) в первую очередь связаны с перекосом, вызванным их систематической задержкой при выборе времени прихода, которая более значительна для S-волн; однако их сопоставимая производительность с некоторыми моделями глубокого обучения указывает на их эффективность, даже если они не требуют обучения. Мы также отмечаем, что традиционные сборщики не обязательно работают быстрее. Например, на машине с процессором Intel Core i7 с тактовой частотой 2,7 ГГц и 16 ГБ памяти требуется 62 часа 12 минут, 3 часа 25 минут и 31 час 18 минут для Kurtosis, FilterPicker,и средства выбора AIC (на основе реализации python в PhasePApy 28) соответственно, чтобы выбрать весь набор тестов, в то время как EQTransformer завершил обнаружение / сбор за 2 часа и 28 минут (на той же машине).

Наше применение EQTransformer к японским данным указывает на высокую обобщенность и точность модели. Точность пиков времени прибытия с помощью EQTransformer сравнима с ручными пиками, а его более высокая чувствительность приводит к более чем двукратному увеличению количества обнаруженных событий. Вновь обнаруженные события не ограничиваются двумя основными разломами, активными в толще Тоттори, и включают разреженную сейсмичность под восточным флангом горы. Дайсен. Этот результат был достигнут с использованием только части (менее 1/3) сейсмических станций, с относительно большим расстоянием между станциями и простым методом ассоциации h. Использование более совершенных алгоритмов сопоставления фаз (например, Glass3 29), вероятно, еще больше увеличит количество событий.Эффективность метода вместе с его высокой эффективностью (время обработки в течение 1 месяца непрерывных данных на 1 станции составляет 23 минуты на одном процессоре без оценки неопределенности) подчеркивают потенциал предлагаемого метода для улучшения мониторинга землетрясений.

В этой статье мы представляем многозадачную сеть для одновременного обнаружения землетрясений и выбора фазы на основе иерархической модели внимательного наблюдения. Наша сеть состоит из одного глубокого кодировщика и трех отдельных декодеров. Два уровня самовнимания (глобальный и локальный) встроены в сеть в виде иерархической структуры, которая помогает нейронной сети фиксировать и использовать зависимости между локальными и глобальными характеристиками в форме волны землетрясения. Наша модель имеет несколько отличительных характеристик: (1) это первая иерархически-внимательная модель сигнала землетрясения; (2) с 56 активационными слоями, это самая глубокая сеть, которая была обучена для обработки сейсмических сигналов;(3) он имеет многозадачную архитектуру, которая одновременно выполняет обнаружение и выбор фазы, моделируя зависимость этих задач друг от друга через иерархическую структуру; (4) в дополнение к вероятностям предсказания, он обеспечивает вариации выходных данных на основе байесовского вывода; (5) это первая модель, обученная с использованием глобально распределенного обучающего набора из 1,2 млн наблюдений местных землетрясений.

Методы

Связанных с работой

Perol et al. 30 использовала сеть из 8 сверточных и одного полностью связанных слоев для обнаружения и кластеризации событий на основе трех компонентных сигналов. Они обучили свою сеть, используя

Землетрясение 2700 и

700,00 шумовых сигналов, записанных в Оклахоме и протестированных на 209 событиях и

131 000 шумовых сигналов из того же региона. В основном они сравнили свой подход с методами поиска сходства и пришли к выводу, что глубокая нейронная сеть может достичь превосходной производительности за меньшее время вычислений. Wu et al. 31 применила плотно связанную сеть из 7 полностью сверточных слоев для обнаружения лабораторных землетрясений (1000 выборок) разных размеров. Росс и др. 10 обучили сеть из 4 сверточных и 2 полностью связанных слоев, используя 4,5 миллиона сейсмограмм, записанных в Южной Калифорнии, для обнаружения коротких окон P-волн, S-волн и шума. Они применили обученную сеть к 24 часам непрерывной записи данных на одной станции в Бомбей-Бич.Калифорния и одно событие, зарегистрированное несколькими станциями в Японии, и показали, что глубокие нейронные сети способны обнаруживать события с формой волны, отличной от той, которая используется для обучения, без ущерба для чувствительности обнаружения. Росс и др. 9 использовал аналогичный подход (3 сверточных и 2 полностью связанных слоя) для выбора времен прихода P. Чжу и Бероза 8 использовали U-Net, сеть полностью сверточного кодера-декодера с пропускаемыми соединениями, для сквозного выбора фаз P и S. Они обучили свою сеть, используя 780 тыс. Сейсмограмм, и протестировали ее, используя 78 тыс. Сейсмограмм, записанных в Северной Калифорнии. Mousavi et al. 7 предложена остаточная сеть сверточных двунаправленных блоков долгосрочной краткосрочной памяти и полностью связанных слоев для обнаружения сигналов землетрясений в частотно-временной области.Они использовали 500 тыс. Трехкомпонентных записей шумовых и тектонических землетрясений из Северной Калифорнии для обучения сети и протестировали работу окончательной модели, применив ее к полусинтетическим данным и непрерывным сейсмограммам, записанным в течение одного месяца во время последовательности индуцированной сейсмичности в Центральный Арканзас. Это исследование показало, что модели, основанные на глубоком обучении, могут хорошо обобщаться на сейсмические события с существенно разными характеристиками, которые регистрируются в различных тектонических условиях, и при этом обеспечивать высокую точность даже при высоких уровнях фонового шума с низкими вычислительными затратами. Pardo et al. 6 также использовали6 также использовали6 также использовалиЭто исследование показало, что модели, основанные на глубоком обучении, могут хорошо обобщаться на сейсмические события с существенно разными характеристиками, которые регистрируются в различных тектонических условиях, и при этом обеспечивать высокую точность даже при высоких уровнях фонового шума с низкими вычислительными затратами. Pardo et al. 6 также использовалиЭто исследование показало, что модели, основанные на глубоком обучении, могут хорошо обобщаться на сейсмические события с существенно разными характеристиками, которые регистрируются в различных тектонических условиях, и при этом обеспечивать высокую точность даже при высоких уровнях фонового шума с низкими вычислительными затратами. Pardo et al. 6 также использовали

774 тыс. Сейсмограмм из Северной Калифорнии для обучения их двухступенчатому сборщику фаз. Сначала они использовали сверточную сеть для грубого сегментирования фаз, а затем на втором этапе выполнили регрессию, чтобы выбрать время прихода. Чжоу и др. 5 (

136 K увеличенных форм сигналов P и S) и Zhu et al. 4 (

30 K) использовали сейсмические данные из последовательности афтершоков Вэньчуань 2007 года в провинции Сычуань, Китай, для обучения детекторов и сборщиков с глубоким наклоном. Хотя Zhou et al. 5 использовали две отдельные сети из 8-уровневых сверточных сетей и двухуровневых двунаправленных стробированных рекуррентных блоков для обнаружения и выбора соответственно, Zhu et al. 4 использовала одну и ту же сеть (11 сверточных и 1 полносвязный уровень) рекурсивным образом как для обнаружения, так и за счет большего времени вычислений. Dokht et al. 3 обучили две отдельные сети, каждая из которых состоит из 4 сверточных и 2 полностью связанных слоев для обнаружения и грубой оценки времен прихода P и S в частотно-временной области. Они использовали

162 тыс. Осциллограмм, записанных в Западной Канаде для обучения. Wang et al. 2 построил две отдельные модели на основе модификации сети VGG-16 и

740 тыс. Сейсмограмм, записанных в Японии для выбора времени прихода P и S соответственно. Их модели работают с короткими временными окнами, которые примерно сосредоточены вокруг прихода S-фазы. Это центрирование выполняется с использованием теоретических времен прихода, которые на практике неизвестны без информации о местах землетрясений.

Эти исследования не только различаются сетевой архитектурой и общим подходом, они также используют различные методы предварительной обработки данных, методы дополнения, используют наборы данных разного размера, диапазона величин, эпицентральных расстояний, типов событий, уровней шума, географического местоположения и сообщают результаты, используя различные матрицы (например, точность, точность, отзыв, F1-оценка, средняя точность, частота совпадений, абсолютная ошибка, ошибка выбора и т. д.), которые затрудняют определение относительной производительности, сильных и слабых сторон каждого метода. Это мешает сообществу принять и развить наиболее эффективный подход. Частично это связано с отсутствием стандартного набора контрольных данных с высококачественными метками для облегчения точных сравнений.Набор данных, используемый в этом исследовании (STanford EArthquake Dateset 13), является кандидатом в стандартный эталонный тест для разработки и сравнения алгоритмов обнаружения и выбора фазы для местных землетрясений.

Сетевой дизайн

Сейсмические сигналы представляют собой последовательные временные ряды, состоящие из различных локальных (отдельные сейсмические фазы) и более глобальных (например, пакетов объемных и поверхностных волн и рассеянных волн) характеристик. Следовательно, полезно сохранить сложное взаимодействие между локальными и глобальными зависимостями в сквозной модели глубокого обучения сейсмических сигналов. Традиционно для такого моделирования последовательности использовались рекуррентные нейронные сети; однако относительно длительные сейсмические сигналы требуют некоторой понижающей дискретизации перед повторяющимися слоями для управления вычислительной сложностью. Следовательно, комбинация рекуррентных и сверточных слоев оказалась эффективной архитектурой для последовательного моделирования сейсмических сигналов 7. Основываясь на нашей предыдущей работе 7,мы представляем многозадачную сеть повторяющихся и сверточных слоев, которая также включает механизм внимания. Механизм внимания - это метод кодирования данных последовательности, при котором элементы в последовательности будут выделены или уменьшены в зависимости от их важности или нерелевантности для задачи 32,33,34,35. Общая структура нашей сети включает один кодировщик и три отдельных декодера. Кодер потребляет сейсмический сигнал во временной области и генерирует высокоуровневое представление и контекстную информацию об их временных зависимостях. Затем декодеры используют эту информацию для сопоставления высокоуровневых характеристик с тремя последовательностями вероятностей, связанных с: наличием сигнала землетрясения, P-фазой и S-фазой соответственно.Механизм внимания - это метод кодирования данных последовательности, в котором элементы в последовательности будут выделены или уменьшены в зависимости от их важности или нерелевантности для задачи 32,33,34,35. Общая структура нашей сети включает один кодировщик и три отдельных декодера. Кодер потребляет сейсмический сигнал во временной области и генерирует высокоуровневое представление и контекстную информацию об их временных зависимостях. Затем декодеры используют эту информацию для сопоставления высокоуровневых характеристик с тремя последовательностями вероятностей, связанных с: наличием сигнала землетрясения, P-фазой и S-фазой соответственно.Механизм внимания - это метод кодирования данных последовательности, в котором элементы в последовательности будут выделены или уменьшены в зависимости от их важности или нерелевантности для задачи 32,33,34,35. Общая структура нашей сети включает один кодировщик и три отдельных декодера. Кодер потребляет сейсмический сигнал во временной области и генерирует высокоуровневое представление и контекстную информацию об их временных зависимостях. Затем декодеры используют эту информацию для сопоставления высокоуровневых характеристик с тремя последовательностями вероятностей, связанных с: наличием сигнала землетрясения, P-фазой и S-фазой соответственно.Кодер потребляет сейсмический сигнал во временной области и генерирует высокоуровневое представление и контекстную информацию об их временных зависимостях. Затем декодеры используют эту информацию для сопоставления высокоуровневых характеристик с тремя последовательностями вероятностей, связанных с: наличием сигнала землетрясения, P-фазой и S-фазой соответственно.Кодер потребляет сейсмический сигнал во временной области и генерирует высокоуровневое представление и контекстную информацию об их временных зависимостях. Затем декодеры используют эту информацию для сопоставления высокоуровневых характеристик с тремя последовательностями вероятностей, связанных с: наличием сигнала землетрясения, P-фазой и S-фазой соответственно.

Очень глубокий кодировщик

Несколько исследований 36,37,38 показали при сквозном обучении на основе необработанных сигналов, что использование более глубоких сетей может быть полезным для получения большей выразительной мощности, лучшего обобщения и большей устойчивости к шуму в форме сигнала. Мы создаем очень глубокий кодировщик, который, как известно, важен для выполнения модели от последовательности к последовательности с вниманием.

В моделях с самовниманием объем памяти растет с увеличением длины последовательности. Следовательно, мы добавляем секцию понижающей дискретизации, состоящую из сверточных слоев и слоев максимального пула, во внешний интерфейс кодировщика. Кодер следует за несколькими блоками остаточных слоев свертки и повторяющихся блоков, включая соединения сеть в сети.

Сверточные слои используют локальную структуру и обеспечивают лучшую временную инвариантность модели, что обычно дает лучшее обобщение. Чтобы иметь возможность расширять глубину сети без ухудшения качества, мы используем блоки сверточных слоев с остаточными соединениями 39, как показано на 39 (дополнительный рисунок 15).

Долгосрочная память (LSTM) 40 - это особые типы рекуррентных нейронных сетей, обычно используемые для моделирования более длинных последовательностей. Основным элементом модуля LSTM является ячейка памяти. На каждом временном шаге модуль LSTM получает ввод, выводит скрытое состояние и обновляет ячейку памяти на основе механизма затвора. Здесь мы расширяем двунаправленные блоки LSTM, включая модули Network-in-Network 41 в каждый блок, чтобы помочь увеличить глубину сети без увеличения количества обучаемых параметров (дополнительный рисунок 16). Было показано, что слои LSTM, предшествующие слоям самовнимания, необходимы для включения позиционной информации 42,43,44.

Механизм внимания

Мы представляем выход слоя LSTM как \ (H = \ < _ \>\ в >>^ _ >\) как последовательность векторных элементов (высокоуровневое представление исходного входного сигнала), где n- длина последовательности, а d h- размерность представления. Рассчитываем собственное (внутреннее) внимание следующим образом 45,46: