-
Notifications
You must be signed in to change notification settings - Fork 0
/
erlang_unicode.html
209 lines (181 loc) · 10.6 KB
/
erlang_unicode.html
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="utf-8">
<meta http-equiv="X-UA-Compatible" content="IE=edge">
<meta name="viewport" content="width=device-width, initial-scale=1">
<meta name="description" content="">
<meta name="author" content="Habibutsu">
<title>Unicode в Erlang</title>
<script src="https://ajax.googleapis.com/ajax/libs/jquery/1.11.0/jquery.min.js"></script>
<!-- Latest compiled and minified CSS -->
<link rel="stylesheet" href="http://netdna.bootstrapcdn.com/bootstrap/3.1.1/css/bootstrap.min.css">
<!-- Optional theme -->
<link rel="stylesheet" href="http://netdna.bootstrapcdn.com/bootstrap/3.1.1/css/bootstrap-theme.min.css">
<!-- Latest compiled and minified JavaScript -->
<script src="http://netdna.bootstrapcdn.com/bootstrap/3.1.1/js/bootstrap.min.js"></script>
<!-- Custom styles for this template -->
<link href="static/theme.css" rel="stylesheet">
<!-- Just for debugging purposes. Don't actually copy this line! -->
<!--[if lt IE 9]><script src="../../assets/js/ie8-responsive-file-warning.js"></script><![endif]-->
<!-- HTML5 shim and Respond.js IE8 support of HTML5 elements and media queries -->
<!--[if lt IE 9]>
<script src="https://oss.maxcdn.com/libs/html5shiv/3.7.0/html5shiv.js"></script>
<script src="https://oss.maxcdn.com/libs/respond.js/1.4.2/respond.min.js"></script>
<![endif]-->
<link rel="stylesheet" href="static/highlight/styles/solarized_dark.css">
<script src="static/highlight/highlight.pack.js"></script>
<script type="text/javascript">
hljs.initHighlightingOnLoad();
//hljs.configure({useBR: true});
$('div.code').each(function(i, e) {hljs.highlightBlock(e)});
</script>
<script>
(function(i,s,o,g,r,a,m){i['GoogleAnalyticsObject']=r;i[r]=i[r]||function(){
(i[r].q=i[r].q||[]).push(arguments)},i[r].l=1*new Date();a=s.createElement(o),
m=s.getElementsByTagName(o)[0];a.async=1;a.src=g;m.parentNode.insertBefore(a,m)
})(window,document,'script','//www.google-analytics.com/analytics.js','ga');
ga('create', 'UA-51121455-1', 'habibutsu.github.io');
ga('send', 'pageview');
</script>
</head>
<body role="document">
<!-- Fixed navbar -->
<div class="navbar navbar-inverse navbar-fixed-top" role="navigation">
<div class="container">
<div class="navbar-header">
<button type="button" class="navbar-toggle" data-toggle="collapse" data-target=".navbar-collapse">
<span class="sr-only">Toggle navigation</span>
<span class="icon-bar"></span>
<span class="icon-bar"></span>
<span class="icon-bar"></span>
</button>
<a class="navbar-brand" href="#">Alexander Verbitsky</a>
</div>
<div class="navbar-collapse collapse">
<ul class="nav navbar-nav">
<li><a href="index.html">Главная</a></li>
<li class="dropdown">
<a href="#" class="dropdown-toggle" data-toggle="dropdown">Заметки<b class="caret"></b></a>
<ul class="dropdown-menu">
<li class="dropdown-header">Системный вызов в Linux</li>
<li><a href="#">Модель памяти</a></li>
<li><a href="git_help.html">Шпаргалка по Git</a></li>
</ul>
</li>
<li><a href="slides.html">Слайды</a></li>
</ul>
</div><!--/.nav-collapse -->
</div>
</div>
<div class="container theme-showcase" role="main">
<div class="row well">
<div class="col-sm-8 blog-main">
<div class="blog-post">
<img src="http://www.erlang.org/doc/erlang-logo.png">
<h2 class="blog-post-title">Unicode в Erlang</h2>
<p class="blog-post-meta">Май 22, 2014 <a href="#">Habibutsu</a></p>
<h4>Введение</h4>
<p>
Реализации строк как отдельного типа в Erlang-е нет. Вместо этого используются списки с ASCII значениями. Двойные кавычки (") представляют собой синтаксический сахар для более удобной записи и в конечном счете значение заключенное в них преобразуется в список.
<pre class="erlang"><code><span class='line'>1> [104, 101, 108, 108, 111].
"hello"
2> [$h, $e, $l, $l, $o].
"hello"</code></pre>
</p>
<h4>Юникодные строки</h4>
<p>
Юникодные строки, представляются в виде набора юникодных точек, например строка "Привет, мир" будет выглядеть следующим образом:
<pre class="erlang">
<code>1> "Привет, мир".
[1055,1088,1080,1074,1077,1090,44,32,1084,1080,1088]</code></pre>
</p>
<p>
До версии Erlang/OTP R16 все юникодные строки (в том числе и бинарные) компилировались в бинарное представление (по 2-а байта на каждую юникодную точку для кириллицы):
<pre class="erlang"><code>[208,159,209,128,208,184,208,178,208,181,209,130,44,32,208,188,208,184,209,128]</code></pre>
В результате вывод на экран можно осуществлять 'как есть', однако при работе с таким представлением будут сложности:
<pre class="erlang"><code>String = "Привет, мир",
io:format("~s~n", [String]),
io:format("length: ~w~n", [length(String)]).
</code></pre>
После компиляции вывод будет следующим:
<pre class="bash"><code>Привет, мир
length: 20</code></pre>
<div class="alert alert-warning">
<strong>Замечание!</strong> При работе через Erlang Emulator представление будет в виде кодовых точек.
</div>
С версии Erlang/OTP R16 появилась возможность задать кодировку исходного файла посредством добавления комментария:
<pre class="erlang"><code>%% -*- coding: utf-8 -*-</code></pre>
В результате строка будет представлена как и положено посредством юникодных точек но для вывода необходимо указывать дополнительный модификатор <b>t</b> и выставлять кодировку:
<pre class="erlang"><code>String = "Привет, мир",
io:setopts([{encoding, utf8}]),
io:format("length: ~w~n", [length(String)]),
io:format("~ts~n", [String]).</code></pre>
<pre class="bash"><code>Привет, мир
length: 11</code></pre>
</p>
<p>
Начиная с Erlang/OTP R17 кодировка по умолчанию для исходных файлов изменена на UTF-8, поэтому необходимости в задании специального комментария уже нет. С версии Erlang/OTP 18.0 также появится поддержка юникода для атомов что означает поддержку в том числе функций и имен модулей.
</p>
<h4>Юникод в бинарном представлении</h4>
<p>
В бинарном представленни для кириллицы данные кодируется по два байта на юникодную точку.
<pre class="erlang"><code><<"Привет, мир">>.
<<208,159,209,128,208,184,208,178,208,181,209,130,44,32,
208,188,208,184,209,128>
<<"Привет, мир"/utf8>>.
<<195,144,194,159,195,145,194,128,195,144,194,184,195,
144,194,178,195,144,194,181,195,145,194,130,44,32,195,
144,194,188,195,144,194,184,195,145,194,128>></code></pre>
Начиная с версии Erlang/OTP R17 (либо и в Erlang/OTP R16 если указана кодировка исходного файла как UTF-8), в качестве представления берется младший байт юникодной точки.
<pre class="erlang"><code><<"Привет, мир">>.
<<31,64,56,50,53,66,44,32,60,56,64>>
<<"Привет, мир"/utf8>>.
<<208,159,209,128,208,184,208,178,208,181,209,130,44,32,
208,188,208,184,209,128>>
</code></pre>
Другими словами начиная с Erlang/OTP R17 юникодная строка для бинарного представления урезается, а в случае когда указан модификатор <b>utf8</b> кодируется по два байта на кодовую точку (для кириллицы).
</p>
<div class="alert alert-info">
<strong>Для информации!</strong> Длина представления определяется по контрольным битам, поэтому зависит от номера кодовой точки.
Диапазон 0x80 - 0x07FF (128 - 2047) куда входит кириллица кодируется по 2-а байта.
</div>
<h4>Ссылки</h4>
<p>
<ul>
<li>
<a href="http://www.erlang.org/doc/apps/stdlib/unicode_usage.html">Using Unicode in Erlang</a>
</li>
<li>
<a href="http://unicode-table.com/">Таблица символов Юникода</a>
</li>
</ul>
</p>
</div>
<!-- /blog-post -->
</div>
<!-- /blog-main -->
<div class="col-sm-3 col-sm-offset-1 blog-sidebar">
<div class="panel panel-default">
<div class="panel-heading">
<h4 class="panel-title" style="font-size: 18px">Архив</h4>
</div>
<div class="panel-body">
<ol class="list-unstyled">
<li><a href="#">Январь 2014</a></li>
</ol>
</div>
</div>
<div class="sidebar-module well">
<h4>Мой профиль</h4>
<ol class="list-unstyled">
<li><a href="https://plus.google.com/+AlexanderVerbitsky">G+</a></li>
<li><a href="https://github.com/habibutsu">GitHub</a></li>
<li><a href="#">Linkedin</a></li>
</ol>
</div>
</div><!-- /.blog-sidebar -->
</div><!-- /.row -->
</div> <!-- /container -->
</body>
</html>