スクレイピング
    Top > Linux > コマンド
    wget
     ウェブページのソースコード(html)を取得する.  -O: ファイルのパス(ファイル名)を指定する  -P: ファイルを保存するディレクトリを指定する  -c: ダウンロードを中断した場合にやり直す  -t: リトライ回数を指定する  -nc: ファイルが保存先に存在していた場合,上書きしない  --limit-rate=: ダウンロードの速度制限を行う  -b: ダウンロードをバックグラウンドで実行する  -i: ファイルに記述されたURLのデータをダウンロードする  -r: 再帰的にダウンロードする --spider: ダウンロードせずにファイルの有無を確認する --http-user=username: ユーザー名を入力する --http-password=password: パスワードを入力する
    例: URLの存在を確認する
     URLの有無を確認し,その結果を変数として受け取る.  URLが存在する場合,メッセージに'200 OK'というフレーズが含まれるため,それが存在するか確認することでURLの存在の有無が分かる.grepのオプション-cは文字列中の指定のフレーズの個数を返す.  wgetの出力は全て標準エラー出力らしいので2>&1で受け取る.  -qを使っても同様のことができる.
    curl
     とりあえずhttpステータスを取得するサンプルコードは以下.  サイトがあればstat=200となるはず.
    References
    wgetコマンドで覚えておきたい使い方16個(+1個) | 俺的備忘録 〜なんかいろいろ〜 + https://orebibou.com/2016/03/wget%E3%82%B3%E3%83%9E%E3%83%B3%E3%83%89%E3%81%A7%E8%A6%9A%E3%81%88%E3%81%A6%E3%81%8A%E3%81%8D%E3%81%9F%E3%81%84%E4%BD%BF%E3%81%84%E6%96%B916%E5%80%8B/ wget のオプション » 風の吹く丘 + http://kazefuku.net/archives/393 HTTPステータスコード取得 + http://yaplog.jp/coconai/archive/56 【 grep 】コマンド――特定の文字を含む行を抽出する:Linux基本コマンドTips(9) - @IT + http://www.atmarkit.co.jp/ait/articles/1604/07/news018.html cURLでHTTPステータスコードだけを取得する + https://qiita.com/mazgi/items/585348b6cdff3e320726