<div dir="ltr"><div><div><div><div>Hi Martin<br><br></div>Not sure about the hashes. If you think it's useful, then go for it. :) Myself, I'm thinking this is not Space Shuttle plans nor bank records and if something goes haywire then xz will crash and we will redownload. :D I guess I'm not much of a precision guy with these things. :)<br><br></div>The tars are built the way they are in Prague. They actually contain a bunch of .xz files, so compression of the whole tar wouldn't anymore make any difference. I will unpack the tars, but of course not decompress the xz files.<br><br></div>Cheers<br><br></div>F<br><br></div><div class="gmail_extra"><br><div class="gmail_quote">On Thu, Nov 30, 2017 at 6:24 PM, Martin Matthiesen <span dir="ltr"><<a href="mailto:martin.matthiesen@csc.fi" target="_blank">martin.matthiesen@csc.fi</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">



<div>
<div style="font-family:arial,helvetica,sans-serif;font-size:10pt;color:#000000">
<div>Hi Filip,</div>
<div><br>
</div>
<div>This sounds good to me, This raises some interesting infra questions (to me at least):</div>
<div><br>
</div>
<div>Could we compute a grand total hash that ensures that the whole thing is correctly in place (eg [1])?</div>
<div>Would we want that on a per-tar file basis (to be able to use only a partial corpus)?</div>
<div>And here I do not mean to hash the tar-file itself, but to make sure that the extracted tar is in place correctly.</div>
<div><br>
</div>
<div>I am curious: Why did you not compress the tar files? To slow?</div>
<div><br>
</div>
<div>Cheers,</div>
<div>Martin</div>
<div><br>
</div>
<div><br>
</div>
<div>[1] <a href="https://stackoverflow.com/questions/4830089/how-to-checksum-an-entire-folder-structure" target="_blank">https://stackoverflow.com/<wbr>questions/4830089/how-to-<wbr>checksum-an-entire-folder-<wbr>structure</a><br>
</div>
<div><br>
</div>
<div>-- <br>
Martin Matthiesen<br>
CSC - Tieteen tietotekniikan keskus<br>
CSC - IT Center for Science<br>
PL 405, 02101 Espoo, Finland<br>
<a href="tel:+358%209%204572376" value="+35894572376" target="_blank">+358 9 457 2376</a>, <a href="mailto:martin.matthiesen@csc.fi" target="_blank">martin.matthiesen@csc.fi</a><br>
Public key : <a href="https://pgp.mit.edu/pks/lookup?op=get&search=0x74B12876FD890704" target="_blank">https://pgp.mit.edu/pks/<wbr>lookup?op=get&search=<wbr>0x74B12876FD890704</a><br>
Fingerprint: AA25 6F56 5C9A 8B42 009F  BA70 74B1 2876 FD89 0704</div>
<br>
<hr id="m_-4254096139939864232zwchr">
<div>
<blockquote style="border-left:2px solid #1010ff;margin-left:5px;padding-left:5px;color:#000;font-weight:normal;font-style:normal;text-decoration:none;font-family:Helvetica,Arial,sans-serif;font-size:12pt">
<b>From: </b>"Filip Ginter" <<a href="mailto:ginter@cs.utu.fi" target="_blank">ginter@cs.utu.fi</a>><br>
<b>To: </b>"infrastructure" <<a href="mailto:infrastructure@nlpl.eu" target="_blank">infrastructure@nlpl.eu</a>><br>
<b>Sent: </b>Thursday, 30 November, 2017 10:15:06<br>
<b>Subject: </b>[NLPL Task Force (A)] CoNLL-2017 raw data on taito<br>
</blockquote>
</div><span class="">
<div>
<blockquote style="border-left:2px solid #1010ff;margin-left:5px;padding-left:5px;color:#000;font-weight:normal;font-style:normal;text-decoration:none;font-family:Helvetica,Arial,sans-serif;font-size:12pt">
<div dir="ltr">
<div>
<div>Hi guys<br>
<br>
</div>
Is it okay for me to stick this data <a href="https://lindat.mff.cuni.cz/repository/xmlui/handle/11234/1-1989" target="_blank">
https://lindat.mff.cuni.cz/<wbr>repository/xmlui/handle/11234/<wbr>1-1989</a> to the nlpl directory on taito? We actually have this data in one of our researcher's work directory on taito, so the total space usage on taito stays. 522GB. Thiis is a useful dataset for
 parser training etc. <br>
<br>
</div>
- Filip</div>
<br>
</blockquote>
</div>
</span></div>
</div>

</blockquote></div><br></div>