<?xml version="1.0" encoding="utf-8" ?><!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
          "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" lang="ja" xml:lang="ja">
<head>
  <meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
  <meta http-equiv="Content-Script-Type" content="text/javascript" />
  <link rel="stylesheet" type="text/css" href="//blog.8-p.info/2009/wp-content/themes/b8i/ALL.css" />

  <link rel="alternate" type="application/rss+xml"
             href="//blog.8-p.info/2009/feed" title="Japanese + English" />
  <link rel="alternate" type="application/atom+xml"
             href="//blog.8-p.info/2009/tag/lang-en/feed/atom" title="English" />

  <link rel="icon" href="//blog.8-p.info/favicon.ico" type="image/vnd.microsoft.icon" />
  <title>Subversion のワーキングコピー上の File::Find を速くする - blog.8-p.info</title>

<link rel="EditURI" type="application/rsd+xml" title="RSD" href="//blog.8-p.info/2009/xmlrpc.php?rsd" />
<link rel="wlwmanifest" type="application/wlwmanifest+xml" href="//blog.8-p.info/2009/wp-includes/wlwmanifest.xml" /> 


</head>

<body>

<div id="header">
  <div class="main">
    <h1><a href="/">blog.8-p.info</a></h1>
    <p>加藤和良 (1984年うまれ) の個人的なブログです。</p>
  </div>
  <div class="sidebar">
    <form method="get" action="//blog.8-p.info/2009/">
      <div id="search">
        <input type="text" class="text" id="searchKeyword"  name="s"
               value="" />
      </div>
    </form>
  </div>
</div>

<div id="body">
  <div class="entry" id="entry1629">
  <h2 class="entry-title"><a href="//blog.8-p.info/2009/11/subversion-file-find">Subversion のワーキングコピー上の File::Find を速くする</a>
      </h2>
  <div class="yui-g meta">
    <div class="date yui-u first">
      2009-11-16 03:13    </div>
    <div class="tags yui-u">
          </div>
  </div>
  <div class="body"><p>Perl の <a href="http://search.cpan.org/dist/perl/lib/File/Find.pm">File::Find</a> で簡単な、たとえば JavaScript のファイルを列挙する処理を書いたとする。</p>
<pre>
find(sub { print "$File::Find::name\n" if m/\.js$/; }, '.');
</pre>
<p>いつもこんな風にすませていたんだけど、これを Subversion レポジトリのワーキングコピー上で走らせると普通より遅い。ワーキングコピー上のすべてのフォルダには .svn という Subversion のメタデータを保存するフォルダがあり、そもそもたどるべき木が大きいので当たり前だ。</p>
<p>たとえば Google Closure Library の場合 svn checkout したものが150MB, svn export したものが69MBになる。</p>
<p>各地の .svn 以下の部分木を無視すればいいので、いつか枝刈りつきの File::Find を書くか探すかしようとしていたんだけど、preprocess オプションをつけるとそれができることがわかった。</p>
<pre>
find({
     wanted =&gt; sub {
        print "$File::Find::name\n" if m/\.js$/;
    },
    preprocess =&gt; sub {
        grep { $_ ne '.svn' } @_;
    },
    '.'
);
</pre>
<p>ベンチマークをとったらちゃんと速くなっていた。数字 (4倍) はレポジトリに左右されると思う。</p>
<pre>
% svn info
Path: .
URL: http://closure-library.googlecode.com/svn/trunk
Repository Root: http://closure-library.googlecode.com/svn
Repository UUID: 0b95b8e8-c90f-11de-9d4f-f947ee5921c8
Revision: 8
Node Kind: directory
Schedule: normal
Last Changed Author: dtbentley
Last Changed Rev: 8
Last Changed Date: 2009-11-13 13:51:43 +0900 (金, 13 11 2009)

% perl ~/find.pl
...
             Rate      plain preprocess
plain      5.94/s         --       -71%
preprocess 20.4/s       243%         --
%
</pre>
<p>ベンチマークに使った find.pl はこんな感じです。</p>
<pre>
use strict;
use warnings;
use File::Find;
use Benchmark;

sub print_if_javascript {
    print "$File::Find::name\n" if m/\.js$/;
}

Benchmark::cmpthese(-1, {
    preprocess =&gt; sub {
        find({
            wanted =&gt; \&amp;print_if_javascript,
            preprocess =&gt; sub {
                grep { $_ ne '.svn' } @_;
            }
        }, '.');
    },

    plain =&gt; sub {
        find({
            wanted =&gt; \&amp;print_if_javascript,
        }, '.');
    }
});
</pre>
<p>速くなるのは当たり前だけど、予想より簡単だったのがうれしかった。</p>
</div>
</div>

<!-- You can start editing here. -->


			<!-- If comments are open, but there are no comments. -->

	 


<h3 id="respond">Leave a Reply</h3>


<form action="//blog.8-p.info/2009/wp-comments-post.php" method="post" id="commentform">


<p><input type="text" name="author" id="author" value="" size="22" tabindex="1" aria-required='true' />
<label for="author"><small>Name (required)</small></label></p>

<p><input type="text" name="email" id="email" value="" size="22" tabindex="2" aria-required='true' />
<label for="email"><small>Mail (will not be published, for <a href="http://en.gravatar.com/">Gravatar</a>) (required)</small></label></p>

<p><input type="text" name="url" id="url" value="" size="22" tabindex="3" />
<label for="url"><small>Website</small></label></p>


<!--<p><small><strong>XHTML:</strong> You can use these tags: <code>&lt;a href=&quot;&quot; title=&quot;&quot;&gt; &lt;abbr title=&quot;&quot;&gt; &lt;acronym title=&quot;&quot;&gt; &lt;b&gt; &lt;blockquote cite=&quot;&quot;&gt; &lt;cite&gt; &lt;code&gt; &lt;del datetime=&quot;&quot;&gt; &lt;em&gt; &lt;i&gt; &lt;q cite=&quot;&quot;&gt; &lt;strike&gt; &lt;strong&gt; </code></small></p>-->

<p><textarea name="comment" id="comment" cols="100%" rows="10" tabindex="4"></textarea></p>

<p><input name="submit" type="submit" id="submit" tabindex="5" value="Submit Comment" />
<input type="hidden" name="comment_post_ID" value="1629" />
</p>

</form>


</div>

<div id="footer">Powered by <a href="http://wordpress.org/">WordPress</a></div>


<!-- Google Analytics -->
<script type="text/javascript">
var gaJsHost = (("https:" == document.location.protocol) ? "https://ssl." : "http://www.");
document.write(unescape("%3Cscript src='" + gaJsHost + "google-analytics.com/ga.js' type='text/javascript'%3E%3C/script%3E"));
</script>
<script type="text/javascript">
var pageTracker = _gat._getTracker("UA-329758-2");
pageTracker._trackPageview();
</script>

<script type="text/javascript" src="//blog.8-p.info/2009/wp-content/themes/b8i/ALL.js"></script>

<script type="text/javascript">//<![CDATA[
(function () {
  var elements = document.body.getElementsByTagName('pre');
  var i, pre;
  for (i = 0; i < elements.length; i++) {
    pre = elements[i];
    if ((pre.innerText || pre.textContent).match(/^[%\(]/)) {
      ;
    } else {
      pre.className += ' prettyprint';
    }
  }
  prettyPrint();

  (new TextField($('searchKeyword'))).setPlaceholder('Search');
})();
//]]></script>

</body>
</html>
