<div dir="ltr"><div class="gmail_quote">2012/3/13 kobi zamir <span dir="ltr">&lt;<a href="mailto:kobi.zamir@gmail.com">kobi.zamir@gmail.com</a>&gt;</span><br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<div dir="ltr"><br><div class="gmail_quote"><div class="im"><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div>
<br>
</div>So I guess that you&#39;re also in the UTF-8 camp. <br></blockquote></div><div><br>yes, but my opinion about utf-8 is just my opinion. i like python and python defaults to utf-8.<br></div></div></div></blockquote><div>
<br></div><div>Python&#39;s internal representation is not UTF-8, but UTF-16, or UTF-32, depends on build parameters. Thus python doesn&#39;t really support code points above the BMP.</div><div>Of course, you cannot know the internal representation, since python (cleverly) does not allow you to cast a unicode string to a sequence of bytes without specifying the result encoding.</div>
<div><br></div><div><a href="http://docs.python.org/c-api/unicode.html">http://docs.python.org/c-api/unicode.html</a>
</div><div><br></div><div>(see also this <a href="http://98.245.80.27/tcpc/OSCON2011/gbu.html">very good presentation</a> on internal unicode representations in various languages).</div></div></div>