04_ページの内部リンクを可視化して、内部SEOを強化しよう
Pythonでページの内部リンクを取得してみよう①

ポイント
SEO向上のコツとして、同一カテゴリの内部リンクを多くする(ただし健全にね)。
Pythonでページの内部リンクを取得してみよう②

ポイント
正規表現チェッカーをつかって、取得したい正規表現を調査しプログラムに反映します。
またSETでリンクが入っていないことを確認してからaddする書き方の記載もあります。便利。
Pythonでネットワーク図を書いてみよう

ポイント
ここは覚えなくてもネットワーク図が必要になったらポイントを抑えればOK
networkxの構成

この段階ではまだ綺麗じゃないけど、ネットワーク図に表せられた

ネットワーク図を見やすく整えていこう

ポイント
re.subで不要な文字列を消していくところが要チェック
スタイルの調整


正規化がうまくいって、Notion内の#block関連を消すことができた
Notionのリンクだと[#block]系を入れようか悩む
うまくいくと👇のように不要文字列を消せる

エラーを素早く解決するために、デバッグについて学ぼう

ポイント
VS CodeとPythonのデバッグがこんなに優秀だとは・・・エラーがすぐわかります。

そして完成
スクレイピングにおいて、調査のためには不要なデータも取得されることが多いので、正規表現を巧みに操り、適切なデータを取得できるようにすることが大事とわかった。
さぁ、次の章は初級編の最後。
いよいよTwitterデータの分析です、楽しみ٩( 'ω' )و