04_ページの内部リンクを可視化して、内部SEOを強化しよう

Pythonでページの内部リンクを取得してみよう①

ポイント SEO向上のコツとして、同一カテゴリの内部リンクを多くする(ただし健全にね)。

Pythonでページの内部リンクを取得してみよう②

ポイント 正規表現チェッカーをつかって、取得したい正規表現を調査しプログラムに反映します。 またSETでリンクが入っていないことを確認してからaddする書き方の記載もあります。便利。
 
 

Pythonでネットワーク図を書いてみよう

ポイント ここは覚えなくてもネットワーク図が必要になったらポイントを抑えればOK
 
networkxの構成
 
この段階ではまだ綺麗じゃないけど、ネットワーク図に表せられた
 
 
 

ネットワーク図を見やすく整えていこう

ポイント re.subで不要な文字列を消していくところが要チェック
 
スタイルの調整
 
 
 
正規化がうまくいって、Notion内の#block関連を消すことができた
Notionのリンクだと[#block]系を入れようか悩む
 
うまくいくと👇のように不要文字列を消せる
 
 

エラーを素早く解決するために、デバッグについて学ぼう

ポイント VS CodeとPythonのデバッグがこんなに優秀だとは・・・エラーがすぐわかります。
 
 
そして完成
 
スクレイピングにおいて、調査のためには不要なデータも取得されることが多いので、正規表現を巧みに操り、適切なデータを取得できるようにすることが大事とわかった。
 
 
さぁ、次の章は初級編の最後。
いよいよTwitterデータの分析です、楽しみ٩( 'ω' )و