Huluの国内ドラマ一覧をhtmlの置換で取得する手順

Huluの国内ドラマ一覧にアクセス

https://www.hulu.jp/display/Japanese%20Series

すべての国内ドラマ・TVのデータを取得して、

画像と一緒に出てくるバラエティやドキュメンタリーを調べて、ドラマ以外は削除で考えていたんですが、画像の上に出てくる文字はjavascriptでhtmlが書き換えられているようで、チョット入手するのは無理そう。

すべての国内ドラマ・TV

https://www.hulu.jp/tiles/424?so=po

仕方がないので、

ドラマのジャンルごとにデータを取得してマージすることに。

画像のリンク

<div class="slider-item size-1×1 slider-item- を \r\n<div class="slider-item size-1×1 slider-item- に置換

<div class="slider-item size-1×1 slider-item- でgrep

ここから、各種情報を取り出していきます。

.* url\(&quot; を 空 に置換

\?.* を 空 に置換

作品url

.*href=" を 空 に置換

“>.* を 空 に置換

先頭に、https://www.hulu.jp をつける

作品タイトル

同じような感じで作品タイトルを取得します。

.*href=" を 空 に置換

</a>.* を 空 に置換

.*"> を 空 に置換

&amp; を & に置換