スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

sedコマンドでテキストファイルから文字を抜き出す

HPとかから一覧データを取ってくる時に、一気に抜き出せるので便利なのでメモ。

a.htmlが下記のような感じだったとき
<html>
<body>
<ul>
<li><a href="a.html">■テキスト1</a></li>
<li><a href="b.html">■テキスト2</a></li>
<li><a href="c.html">■テキスト3</a></li>
<li><a href="d.html">■テキスト4</a></li>
</ul>
</body>
</html>

■テキスト1
■テキスト2
■テキスト3
■テキスト4
を抜き出す方法。

まずsedコマンド
sed -n '/■/p' a.html
これで
  <li><a href="a.html">■テキスト1</a></li>
<li><a href="b.html">■テキスト2</a></li>
<li><a href="c.html">■テキスト3</a></li>
<li><a href="d.html">■テキスト4</a></li>
だけが抽出出来るので、あとはエクセルとかに貼り付けて、区切り位置で分割すればOK。
そのあと、エクセルで好きな感じに連結すれば作業効率もアップ!

参考サイト
sedでこういう時はどう書く?
sed コマンド
スポンサーサイト

トラックバック

コメント

コメントを残す

Secret


プロフィール

U2K

Author:U2K
いろいろプログラムに関しての覚え書きをちょくちょくと書いていきます。

オススメ










オススメ

忍者AdMax

u2k on Twitter

最近の記事


上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。