ec849e6876bb00daddf8a26fd9dba655529dc933
[lambda.git] / rosetta1.mdwn
1 [[!toc levels=2]]
2
3 ## Can you summarize the differences between your made-up language and Scheme, OCaml, and Haskell? ##
4
5 The made-up language we wet our toes in in week 1 is called Kapulet. (I'll tell you [[the story behind its name|randj.jpg]] sometime.) The purpose of starting with this language is that it represents something of a center of gravity between Scheme, OCaml, and Haskell, and also lacks many of their idiosyncratic warts. One downside is that it's not yet implemented in a form that you can run on your computers. So for now, if you want to try out your code on a real mechanical evaluator, you'll need to use one of the other languages.
6
7 Also, if you want to read code written outside this seminar, or have others read your code, for these reasons too you'll need to make the shift over to one of the established languages.
8
9 We hope, though, that learning Kapulet first puts you in a position to make that shift more effortlessly, and also to more quickly see the places where there's underlying unity to Scheme, OCaml, and Haskell, despite their diverse syntaxes. (And idiosyncratic warts.)
10
11 This is a complex document. We don't expect that you will be learning all of these languages simultaneously. But you may find it helpful to read through the whole thing to get a broad overview, then consult it more carefully about the language you're focused on learning at any given point. You may also find it helpful to consult when confronting code you don't understand in one of the other languages. There are important parts of these languages that aren't covered here, especially parts concerning types and monads and continuations, that we will be discussing later in the seminar. We will add additional Rosetta pages for those later. If you master the ideas summarized here, however, you will have a good understanding of the basic skeleton of each of these languages.
12
13
14
15
16 ### Comments
17
18     ...  # this is a comment in Kapulet, that goes until the end of the line
19
20     ...  ; this is a comment in Scheme, that goes until the end of the line
21
22     ...  -- this is a comment in Haskell, that goes until the end of the line
23
24 Note that for Haskell's comments, the `--` must be immediately followed by something like a space or a letter. `-->` does not begin a comment; it's a legal operator symbol.
25
26 OCaml doesn't have comments of that sort. It only has "block" comments like this:
27
28     (* ... *)
29
30 which may last for several lines. These comments *nest*, so that:
31
32     (* ... (* inner *) ... *)
33
34 is a single comment.
35
36 Haskell also has block comments, though it `{- writes them differently -}`.
37 Haskell's block comments also nest.
38
39 Racket and Scheme also have block comments, though they `#| write them differently |#`.
40 These block comments also nest. Another form of block comments is `#;( ... )`. Those may contain nested parentheses, and extend until the next *matching* `)`. So prefixing `#;` to a complex parenthesized expression is a way to turn the whole thing into a comment. (These two comment styles only recently became part of the official Scheme standard, but they have been widely implemented.)
41
42
43
44
45 ### Variables
46
47 Our [[syntax for variables|topics/week1#variables]] in Kapulet is close to that in the other languages. Haskell and OCaml differ only in that they do not permit trailing `?` or `!`; however, they do permit trailing `'`s (and even permit `'`s *in the middle* of a variable too, which Kapulet does not). Scheme permits all of these characters, plus many more punctuation symbols as well, to occur anywhere in a variable. Scheme also permits variables to begin with capital letters, or to consist solely of the single character `_`; but the other languages reserve these terms for special purposes.
48
49 In addition to the variables made of letters (more properly, of alphanumerics), Haskell and OCaml and Kapulet also permit some variables made exclusively of punctuation symbols, like `<` or Haskell's `>=>` and `<$>`. In Haskell, these always have infix syntax, and the variables made of letters never do. (But the former can have their infix syntax suppressed with parentheses, and the latter can be "flagged" to temporarily take on infix syntax, as we'll discuss below.)
50
51 In OCaml and Kapulet, some variables made of letters also have infix syntax, such as `comp` in Kapulet or `mod` in OCaml. I haven't presented to you the complex mechanisms needed to declare this.
52
53
54
55
56 ### Equality and Booleans
57
58 The relation that's written `==` in Kapulet is also written that way in Haskell. That symbol means something else in OCaml, having to do with mutable reference cells; to get the same notion in OCaml one writes just a single `=`. The negation of this relation is written `!=` in Kapulet, `/=` in Haskell, and `<>` in OCaml. (Again, `!=` means something else in OCaml.)
59
60 These comparison operators are "polymorphic". This is a notion we'll discuss later when we get to types, but in the present context it means that you can apply `==` to two numbers, or to two booleans, and so on. In Kapulet, OCaml, and Haskell, however, you cannot apply that comparison to a number and a boolean at the same time. That will fail as a type error, instead of evaluating to `'false`.
61
62 Also, these languages (and Scheme too) behave in idiosyncratic ways if you try to compare two function values for equality. The equivalence of function values is not in general recursively decidable; it may be possible in some specific cases to give you a definite yes-or-no answer, but you'll have to look up the specific rules for (each implementation of) each language. I recommend that you in general just avoid comparing function values for equality.
63
64 Scheme has a whole bunch of equality functions. First, there are functions restricted to specific kinds of values: `=` for numbers, `symbol=?` for symbolic atoms, `boolean=?` for booleans (this is more familiar to us as "iff"), and so on. Those functions fail if called with arguments that aren't of the expected types. Scheme also has a couple of unrestricted equality functions, which can take arguments of any type, and the arguments need not even be of the same type (but if they're not, they'll always be counted as unequal). The two most fundamental of these are `eqv?` and `equal?`. They behave the same for numbers (at least, for "exact" numbers like integers), for symbols, for booleans, and the like. As we'll discuss [[below|rosetta1#mlists]], containers in Scheme (lists, pairs, vectors, strings) are generally "mutable", so there's a choice when comparing two such containers whether we're asking if the containers merely *happen now to contain corresponding values* (including, if their elements are themselves containers, they too containing corresponding values). Or whether we're asking if the containers *occupy the same mutable location in memory*, so that it'd be impossible for them to become unequal at any stage in the program's evaluation. The first comparison is expressed by `equal?`; the second by `eqv?`. (You may also see Scheme programs that use the predicate `eq?`. This is a variant of `eqv?` that may sometimes be more efficient.)
65
66 The relations that are written `and`, `or`, and `not` in Kapulet are written the same way in Scheme. Note that in Scheme the first two can take zero or more arguments:
67
68     ; Scheme
69     (and)
70     (and bool1)
71     (and bool1 bool2)
72     (and bool1 bool2 bool3)
73
74 As you'd expect `(and bool1)` evaluates the same as plain `bool1`; similarly with `(or bool1)`. What do you think `(and)` with no arguments should evaluate to? How about `(or)`?
75
76 These relations are written in Haskell and OCaml as `&&`, `||`, and `not`. (Haskell uses `and` and `or` to express other functions, which compute the joint conjunction or disjunction of every `Bool` value in a List of such. OCaml permits `or` as an old synonym for `||`, but discourages using that spelling. OCaml also permits `&` as an old, discouraged synonym for `&&`.)
77
78 The values that are written `'true` and `'false` in Kapulet are written in Haskell as `True` and `False`, and in OCaml as just `true` and `false`. (It'd be more consistent with OCaml's other naming policies for them to have said True and False<!-- other value constructors must be capitalized -->, but they didn't.) These are written `#t` and `#f` in Scheme, but in Scheme in many contexts any value that isn't `#f` will behave as though it were `#t`, even values you might think are more "false-like", like `0` and the empty list.
79 <a id=truth-like></a> Thus `(if 0 'zero 'nope)` will evaluate to `'zero`.
80
81 Some Scheme implementations, such as Racket, permit `#true` and `#false` as synonyms for `#t` and `#f`.
82
83 Scheme also recognizes the values `'true` and `'false`, but it treats `'false` as distinct from `#f`, and thus as a "truth-like" value, like all of its other values that aren't `#f`. Kapulet essentially took Scheme's `boolean` values and collapsed them into being a subtype of its `symbol` values.
84 <!-- This is also what it does with Scheme's `char`s ?? see [[below|rosetta1#chars]] -->
85
86
87
88
89 ### Infix operators and parentheses
90
91
92 Kapulet, OCaml, and Haskell all understand some expressions like `+` to be infix operators. So you would write:
93
94     1 + 2
95
96 not:
97
98     + 1 2
99
100 <a id=pre-curried></a>
101 But all three of these languages permits you to enclose an infix operator in parentheses to make a *section*, which no longer has infix syntax. In Kapulet, `( + )` is the same as &lambda; `(x, y). x + y`, whereas in OCaml and Haskell it's a *curried* function, which we can write (in Kapulet syntax) as &lambda; `x y. x + y`. We'll discuss [[sections|rosetta1#sections]] and [[curried functions|rosetta1#curried]] below.
102
103 Kapulet and OCaml have some variables made of (or spelled with) letters also taking infix syntax, such as `comp` in Kapulet or `mod` in OCaml. In Haskell, this is never the case: variables that are made of letters are only treated as function terms being applied to arguments *when they're at the start* of a list of expressions; and variables that are made of punctuation symbols, and not enclosed in parentheses, will only be treated as infix operators. However, Haskell permits you to temporarily "flag" a  function term made of letters to behave like an infix operator, by enclosing it in `` ` `` marks. Thus in Haskell you can write:
104
105     3 `mod` 2
106
107 But without the `` ` ``, you'd have to write: `mod 3 2`.
108
109 Scheme has no infix operators. It ruthlessly demands that all functions to be applied to arguments come at the start of a list of expressions, regardless of whether the functions are specified by variables made of letters, punctuation symbols, or a mix of the two, or even if the functions are computed by evaluating more complex expressions. Thus in Scheme one always writes:
110
111     (+ 3 2)
112
113 and the like. Moreover, in Scheme parentheses are never optional and never redundant. In contexts like this, the parentheses are necessary to express that the function is being applied; `+ 3 2` on its own is not a complete Scheme expression. And if the `+` were surrounded by its own parentheses, as in:
114
115     ((+) 3 2)
116
117 what that would mean is that `+` is first being applied to *zero* arguments, which is different from not applying it all. (In Kapulet, OCaml, and Haskell, one would write that `f` is being applied to "zero arguments" like this: `f ()`; see [[below|rosetta1#void]]. We will discuss functions that "take zero arguments" a few weeks into the seminar.) Scheme helpfully defines the result of applying `+` to zero arguments to be `0`. So `((+) 3 2)` would evaluate to whatever `(0 3 2)` does, and that's an error, because `0` is not a function.
118
119 Note that `(0 3 2)`, although it *is*, qua expression, a list of numbers, does not evaluate to a list. To get an expression that *evaluates to* that list, you'd have to use `(list 0 3 2)` or `'(0 3 2)`. (Notice the initial `'`.) More on this [[below|rosetta1#writing-scheme-lists]].
120
121 In Scheme, you can also write `(+ 3 2 10)`, and so on. You only have to write `(+ (+ 3 2) 10)` if you really want to.
122
123 Parentheses have many other roles in Scheme, too; they're a ubiquitous part of the syntax, and don't always express function application. You might sometimes feel they are overused.
124
125 You may sometimes see `[ ... ]` being used in Scheme, instead of `( ... )`. This is just a stylistic variant; they work exactly the same. The official Scheme standard doesn't permit this usage, but most Scheme implementations do. It can help keep track of which closing `]` or `)` goes with which opening `[` or `(`. The opening and closing symbols always have to correspond.
126
127 <a id=curried></a>
128 In Scheme, the default style for defining functions is as taking several arguments simultaneously, that is the *uncurried* style. In OCaml and Haskell, the default style is to define them *curried*. Curried functions can easily be partially applied:
129
130     (* OCaml *)
131     let add  = fun x y -> x + y in
132     let add2 = add 2 in
133         add2 3
134     ;;
135
136 will result in `5`.
137
138 In Scheme, the common idiom would be to define `add` like this:
139
140     (define add (lambda (x y) (+ x y)))
141
142 (We'll explain `define` [[below|rosetta1#define]].) After this, you cannot say `(add 2)`, because `add` will be expecting two arguments, but you only supplied one. You can however define curried functions in Scheme, it's just more laborious:
143
144     (define curried_add (lambda (x) (lambda (y) (+ x y))))
145     (define add2 (curried_add 2))
146     (add2 3)
147
148 will result in `5`. This is the best one can do in official Scheme, but there are various syntax extensions and macros out there to make it possible to write this sort of thing more succinctly.
149
150 OCaml and Haskell also permit defining functions in uncurried form:
151
152     (* OCaml *)
153     let add  = fun (x, y) -> x + y (* uncurried*) in
154     let add2 = add 2 in ...
155
156 Here the last displayed line will fail, because `add` expects as its argument a tuple of two numbers.
157
158 Kapulet essentially works like OCaml and Haskell; though for pedagogical reasons we started out by introducing uncurried definitions, rather than the *curried* definitions those other languages predominantly use.
159
160 <a id=sections></a>
161 [[As we mentioned in the course notes|topics/week1_advanced_notes#sections]], in Kapulet, OCaml, and Haskell, there is a shorthand that enables you to write things like:
162
163     # Kapulet
164     let
165       ten_minus match lambda x. 10 - x;
166       and_ys    match lambda x. x & ys;
167       plus      match lambda (x, y). x + y
168     in (ten_minus, and_ys)
169
170 like this:
171
172     # Kapulet
173     let
174       ten_minus match (10 - );
175       and_ys    match ( & ys);
176       plus      match ( + )
177     in (ten_minus, and_ys)
178
179 There are just minor differences between these languages. First, OCaml doesn't have the `( + 10)` or `(10 + )` forms, but only the `( + )`.
180
181 Second, as a special case, OCaml doesn't permit you to do this with its list cons-ing operator `::`. You have to write `fun x xs -> x :: xs`, not `( :: )`. <!-- Syntax error -->
182 Whereas in Kapulet `( & )`, `(x & )`, and `( & xs)` are all sections using its sequence cons-ing operator `&`; and in Haskell, `( : )`, `(x : )`, and `( : xs)` are the same.
183
184 Third, as [[mentioned above|rosetta1#pre-curried]], OCaml's and Haskell's `( + )` and the like evaluate to *curried* functions.
185
186 Fourth, in Kapulet, `( - 10)` expresses &lambda; `x. x - 10` (consistently with `(10 - )`), but Haskell (and OCaml) treat this specific form differently, and interpret it as meaning the integer `-10`. Here's how to express some things in Kapulet:
187
188     # Kapulet
189     (0 - 2)
190     ( - 2)         # ( - 2) 10 == 8
191     (0 - )
192     ( - ) (5, 3)
193     
194
195 and here are their translations into natural Haskell:
196
197     -- Haskell
198     ( -2 )        -- (0 - 2) also works
199     (subtract 2)  -- subtract 2 10 == 8
200     negate        -- (0 - ) also works
201     ( - ) 5 3
202
203 OCaml expresses `(0 - )` or `negate` as `~-`. You can write `3 * (0 - 2)` in OCaml either like that, or as `3 * ( -2 )`, or as `3 * ~-2`.
204
205 I know all these languages fairly well, and I still find this fourth issue difficult to keep track of. You may be starting to understand why I spoke of "warts."
206
207
208
209
210 ### Sequences and Lists
211
212 In Kapulet, we have a notion I called a "sequence" which has an empty form `[]` and a cons-ing operator `&`, so that:
213
214     1 & 2 & 3 & []
215
216 can also be written:
217
218     [1, 2, 3]
219
220 Haskell is very similar, except that it calls these Lists, and its cons-ing operator is written `:`. OCaml also calls them `list`s, and its cons-operator is written `::`. (OCaml *also* uses Haskell's symbol `:`, but it uses it to deal with types; and Haskell in turn also uses OCaml's symbol `::`, but that's what *it* uses to deal with types. Grr.)
221
222 Kapulet writes the operator that concatenates or appends sequences as `&&`. Thus:
223
224     # Kapulet
225     [1, 2] && [3, 4, 5]
226
227 evaluates to `[1, 2, 3, 4, 5]`. Haskell writes this operator as `++`. In Haskell, a `String` is just a List of `Char`, so `++` is also the operator we use to append strings:
228
229     -- Haskell
230     "over" ++ "due"
231
232 evaluates to `"overdue"`. In OCaml, `string`s aren't implemented as `list`s, so their append operators are different: `^` for `string`s and `@` for `list`s:
233
234     (* OCaml *)
235     [1; 2] @ [3; 4; 5] ;;
236     "over" ^ "due" ;;
237
238 evaluate to `[1; 2; 3; 4; 5]` and `"overdue"`. Note that OCaml separates its `list` elements with semicolons not commas. If you write `[1, 2, 3]` in OCaml, it will think that's a one-element list whose first element is a triple, that is, what you'd write in Haskell as `[(1, 2, 3)]`.
239
240 Here are some list functions in Kapulet:
241
242     length
243     (&&)
244     # the following were defined in homework
245     empty?       # can also use ([] == ) or pattern-match against []
246     tail
247     drop
248     take
249     split
250     filter
251     partition
252     map
253     map2
254     # the following were defined in extra credit
255     unmap2
256     takewhile
257     dropwhile
258     reverse
259     # new functions
260     join         # converts [[10, 20], [30], [], [40, 50]]
261                  # to [10, 20, 30, 40, 50] (but only "joining" a single layer of []s)
262     (mem)        # infix syntax, 2 mem [1, 2, 3] == 'true
263     nth          # nth [10, 20, 30] 1 == 20, because 10 occupies position 0
264                  # fails if the index is out of bounds
265     all p xs     # all odd? [1, 3, 5] == 'true
266     any p xs     # any even? [1, 3, 5] == 'false
267
268
269
270 Here are the corresponding functions in Haskell:
271
272     length
273     (++)
274     null     -- can also use ([] == ) or pattern-match against []
275     tail     -- compare head, which fails on []
276     drop     {- but these are curried functions, so you write `drop n xs`
277                 not `drop (n, xs)` as in Kapulet -}
278     take
279     splitAt
280     filter
281     Data.List.partition
282     map
283     zipWith  {- zip handles the special case of zipWith where f is the function that forms ordered pairs
284                 both zipWith and zip stop with the shortest list -}
285     unzip    {- unlike unmap2, doesn't take an explicit f argument
286                 just assumes it's (\(x, y) -> (x, y)) -}
287     takeWhile
288     dropWhile
289     reverse
290     concat   -- corresponding to join
291     elem     -- not infix syntax, but often written as: 2 `elem` [1, 2, 3]
292     (!!)     -- infix syntax: [10, 20, 30] !! 1 == 20
293              -- fails if the index is out of bounds
294     all p xs
295     any p xs
296
297
298
299 Here they are in OCaml:
300
301     List.length
302     (@)          (* or List.append *)
303     (* no function predefined for empty?
304        can use fun xs -> [] == xs, or function [] -> true | _ -> false *)
305     List.tl      (* compare List.hd, which fails on [] *)
306     (* no function predefined for drop or take *)
307     (* no function predefined for split; OCaml uses List.split to mean something else *)
308     List.filter  (* also List.find_all *)
309     List.partition
310     List.map
311     List.map2    (* compare List.combine, like Haskell's zip
312                     both map2 and combine fail if the lists are different lengths *)
313     List.split   (* like Haskell's unzip, doesn't take an f argument *)
314     (* no function predefined for takewhile or dropwhile *)
315     List.rev
316     List.concat  (* also List.flatten, which still only "joins" a single layer of []s *)
317     List.mem     (* not infix syntax *)
318     List.nth     (* List.nth [10; 20; 30] 1 = 20; fails if the index is out of bounds *)
319     List.for_all p xs
320     List.exists p xs
321
322 Recall that in addition to sequences/lists, Kapulet also has a notion of *sets*, which can be literally expressed using notation like this:
323
324     {'x, x}
325
326 That set contains the atomic symbol `'x`, and whatever symbol value the variable `x` is bound to (which need not, but may, be the symbol `'x`). Or:
327
328     {1, 2, x}
329
330 That set contains the numbers `1` and `2`, and whatever number the variable `x` is bound to. Sets in Kapulet, like sequences, must have elements of all the same type.
331
332 OCaml and Haskell also have set values (in the `Set` and `Data.Set` libraries, respectively), but these are harder to use and can't be literally expressed. In particular, the `{ ... }` notation in these languages has different meanings. <!-- In addition to Haskell block syntax, also expressed *records* in both languages, which roughly correspond to multivalues-with-keys in Kapulet. -->
333
334
335
336
337 <a id=scheme-lists></a>
338 How does all this look in Scheme? Well, Scheme has a notion they call a (proper) `list`, and also a notion they call a `vector`. There are also what Scheme calls "improper" `list`s, with `(cons 1 'nonlist)` or `'(1 . nonlist)`, where `'nonlist` is any non-list (here it's a `symbol`) being a limiting case. Let's ignore the improper `list`s. Scheme's (proper) `list`s and `vector`s each have a claim to correspond to Kapulet's sequences / Haskell's Lists / OCaml's `list`s. But they also differ from those. The main differences are:
339
340 <a id=mlists></a>
341
342 1.  these structures in Scheme can contain heterogenously-typed elements, including further `list`s and `vector`s in some positions but not in others
343 2.  in the official Scheme standard, `list`s and `vector`s are both *mutable* containers, that is, one and the same persisting `list` structure can have different
344 elements at different stages in a program's evaluation
345
346 Many Scheme implementations also provide immutable versions of `list`s and `vector`s, more closely approximating the sequences/lists in Kapulet, Haskell, and OCaml. With some configurations, Racket even makes the immutable versions the defaults. But none of these are yet part of the official Scheme standard. Also, difference 1 is present in all Scheme implementations. This makes Scheme's `list`s and `vector`s in some ways more akin to *tuples* in the other languages (to "proper" tuples in Kapulet) (see [[below|rosetta1#tuples]]).
347
348 (OCaml does have `Array` values, and Haskell has `Data.Array.MArray` values, both of which are similar to Scheme's mutable `vector`s, at least in respect 2. But they are more difficult to use.)
349
350 <a id=writing-scheme-lists></a>
351 There are also some differences in how `list`s are specified in Scheme versus the other languages. In Scheme, one writes the empty list like this:
352
353     (list)
354
355 and lists with more elements like this:
356
357     (list 10)
358     (list 10 x)
359     (list 10 x 'alpha)
360     (list 10 x 'alpha (list 'beta 'gamma) 'delta 20)
361
362 In the preceding, the `x` is a variable and is evaluated to be whatever value it's bound to in the context where the displayed expressions are being evaluated. If one has a list specification that contains no variables, no matter how deeply embedded, then a certain shorthand becomes available, using a `'` prefix, like this:
363
364     '()                          ; same as (list)
365     '(10)                        ; same as (list 10)
366     '(10 alpha)                  ; same as (list 10 'alpha)
367     '(10 alpha (beta gamma) 20)  ; same as (list 10 'alpha (list 'beta 'gamma) 20)
368
369 Scheme can also write <code>'<em>something</em></code> as <code>(quote <em>something</em>)</code>. (The `quote` is not a function being applied to some argument; this is a special syntax that only superficially *looks* like a function application.)
370
371
372 Here are the `list` functions in Scheme corresponding to the functions listed in the other languages:
373
374     cons              ; corresponds to Kapulet's ( & ), Haskell's ( : ), OCaml's `::`
375     length
376     append            ; corresponds to Kapulet's ( && ), Haskell's ( ++ ), OCaml's ( @ )
377                       ; can be applied to one or more arguments
378     null?             ; corresponds to Kapulet's empty?, Haskell's null
379     car               ; corresponds to Haskell's head
380     cdr               ; corresponds to Kapulet's and Haskell's tail
381     (list-tail xs k)  ; corresponds to Kapulet's drop (k, xs)
382                       ; fails if the list has length < k
383     ; no official function predefined for take or split or filter or partition
384     map               ; corresponds to Kapulet's map and map2
385                       ; can take one or more list arguments
386     ; no official function predefined for unmap2 or takewhile or dropwhile
387     reverse
388     ; no official function prefefined for join/concat
389     memv, member      ; correspond to Kapulet's (mem) and Haskell's elem
390                       ; memv compares elements using eqv?, member using equal?
391     (list-ref xs k)   ; corresponds to Kapulet's `nth xs k`
392                       ; fails if the index k is out of bounds
393     ; no official function predefined for all or any
394
395 <!-- memv, member return the first tail headed by the matching element, or #f -->
396
397 All of the functions listed as missing from the official Scheme standard can be found in various add-on libraries, or you could define them yourself if you had to.
398 <!-- TODO Scheme extra list functions -->
399
400
401
402 <a id=tuples></a>
403 ### Tuples
404
405 The course notes [[already mentioned|topics/week1#lightweight]] that Kapulet has a "lightweight" notion of tuples, called multivalues and written `(10, x)`, as well as a heavier notion written `Pair (10, x)`. The latter is what corresponds to the tuples in Haskell and OCaml. They don't have any explicit notation for Kapulet's "lightweight" tuples (though they exist behind the scenes in OCaml and explain some of its otherwise puzzling behavior). There are good reasons for introducing this additional complexity in Kapulet, but this is not the place to explain them.
406
407 All of these languages have notions of zero-length tuples, as well as pairs, triples, and the like. (In Kapulet's case, there are both the 0-length multivalue `()` and heavier counterparts.)
408
409 Probably the closest approximation to tuples in Scheme is its notion of `vector`s, though in the case of pairs, Scheme's `pair`s---which it identifies with short, possibly "improper" `list`s---are arguably also contenders. The fact that these Scheme structures permit elements of heterogenous type is not a problem, because that is also true for tuples in the other languages. However, Scheme's `vector`s and `pair`s are officially mutable, but tuples in the other languages are not. (As mentioned above, many Scheme implementations do also provide immutable versions of these structures.)
410
411 <a id=void></a>
412 What corresponds to the zero-length tuples in Kapulet, OCaml, and Haskell? Perhaps the zero-length `vector`. Or perhaps a different Scheme value, called *void*. Different Scheme implementations display this value in different ways. For example, Racket and Chicken may display it as `#<void>` or as `#<unspecified>` or may just display nothing. This is the value returned, for example, by a `case` or a `cond` construction if there is no `else` clause and none of the provided clauses successfully match. In many respects, this value more closely approximates in Scheme the behavior that `()` has in Kapulet, OCaml, and Haskell.
413
414
415
416
417 <a id=chars></a>
418 ### Chars and Strings
419
420 Scheme, OCaml, and Haskell all have values they call "characters", and sequences of such characters they call "strings". Haskell and OCaml write the first character of the word "false" like this:
421
422     'f'
423
424 whereas Scheme writes it like this:
425
426     #\f
427
428 (Note the difference between the *character* `#\f` and the *boolean* `#f`.) Scheme gives special characters like `#\space` funny names.
429
430 Sequences of characters are called "strings". All of these languages write the string "false" like this:
431
432     "false"
433
434 This is not the same as the truth-value, nor is it the same as the atomic symbol `'false` (which Kapulet but not Scheme identifies with the truth-value). In Haskell, strings are strictly equivalent to Lists of `Char`s. In OCaml and Scheme, they are not equivalent to lists (nor to vectors) but merely isomorphic to them. In OCaml and Scheme, some strings are mutable, like Scheme's vectors.
435
436
437
438
439 ### Other functions
440
441 These functions are roughly the same in Kapulet, OCaml, and Haskell: `succ`, `pred`, `fst`, `snd`. The official Scheme standard doesn't include any `succ` or `pred` functions, but Racket and Chicken both have `add1` and `sub1`. Depending on what Scheme values you take to correspond to tuples in the other languages, `fst` and `snd` may correspond to Scheme's `car` and `cdr`. (These also correspond to `head` and `tail` when applied to lists.)
442
443 Kapulet's `(comp)`, `odd?`, `even?`, and `swap` are Haskell's `( . )`, `odd`, `even`, and `Data.Tuple.swap`. None of these are predefined in OCaml.
444
445 Kapulet's `dup` isn't predefined in Haskell but can be easily expressed as `\x -> (x, x)`.
446
447 These are the same in Kapulet and Haskell (modulo the differences between [[Kapulet's multivalues|topics/week1#lightweight]] or "lightweight tuples" and Haskell's tuples): `id`, `const`, `flip`, `curry`, `uncurry`. None of these are predefined in OCaml.
448
449 Kapulet and Haskell both have `( $ )`, which was explained [[in the course notes|topics/week1_advanced_notes#dollar]]. OCaml expresses this as `( @@ )`. (OCaml also uses `|>` to express the converse operation: `f x`, `f @@ x` and `x |> f` all mean the same.)
450
451
452
453
454 ### Case, Cond, and If ... then ...
455
456 The complex expression that's written like this in Kapulet:
457
458     # Kapulet
459     case some_expression of
460       0 then result0;
461       1 then result1;
462       x then resultx
463     end
464
465 is written very similarly in Haskell:
466
467     -- Haskell
468     case some_expression of {
469       0 -> result0;
470       1 -> result1;
471       x -> resultx
472     }
473
474 <a id=haskell-whitespace></a>
475 Unlike the other languages we're discussing, Haskell pays special attention to the whitespace/indentation of what you write. If you've got the indentation right, you can omit the `{`, `;`, and `}`s in the above. And that's how you will often see Haskell code displayed. On this website, though, I propose to always include the `{`s and so on when displaying Haskell code, because the indentation rules aren't 100% intuitive. It's easy to read properly-indented Haskell code, but until you've learned and practiced the specific rules, it's not always easy to write it.
476
477 <!-- In OCaml, separating expressions with `;` has a different meaning, concerning the sequencing of effects. To bracket a block of code in the way Haskell does with `{...; ...}`, in OCaml you'd use parentheses or `begin ... end`. -->
478
479 The `case` construction is written only a little bit differently in OCaml:
480
481     (* OCaml *)
482     match some_expression with
483       0 -> result0 |
484       1 -> result1 |
485       x -> resultx
486
487 Note there is no closing `end` or `}`. You can enclose the whole expression in parentheses if you want to, and when embedding it in some larger expressions (like another `match` expression), you may need to. Sometimes the `|` dividers are written at the start of a line, and you are allowed to include an extra one before the first line, so you could also see this written as:
488
489     (* OCaml *)
490     match some_expression with
491       | 0 -> result0
492       | 1 -> result1
493       | x -> resultx
494
495 The syntax for [[guards|topics/week1_advanced_notes#guards]] and [[as-patterns|topics/week1_advanced_notes#as-patterns]] also only varies slightly between these languages:
496
497     # Kapulet
498     case some_expression of
499       pat1   when guard             then result1;
500       pat1   when different_guard   then result2;
501       ((complex_pat) as var, pat4)  then result3
502     end
503
504 <a id=haskell-guards></a>
505
506     -- Haskell
507     case some_expression of {
508       pat1 | guard              -> result1;
509            | different_guard    -> result2;
510       (var@(complex_pat), pat4) -> result3
511     }
512
513     (* OCaml *)
514     match some_expression with
515       pat1   when guard             -> result1 |
516       pat1   when different_guard   -> result2 |
517       ((complex_pat) as var, pat4   -> result3
518
519
520 The official Scheme standard only provides for a limited version of this. There is a `case` construction, available since at least "version 5" of the Scheme standard (r5rs), but it only accepts literal values as patterns, not any complex patterns containing them or any patterns containing variables. Here is how it looks:
521
522     ; Scheme
523     (case some_expression
524       ((0) 'result0)
525       ((1) 'result1)
526       ((2 3 5) 'smallprime)
527       (else 'toobig))
528
529 The results can be complex expressions; I just used bare symbols here for illustration. Note that the literal patterns in the first two clauses are surrounded by an extra pair of parentheses than you might expect. The reason is shown in the third clause, which begins `(2 3 5)`. This does not mean to match a list containing the values `2` `3` and `5`. Instead it means to match the simple value `2` *or* the simple value `3` *or* the simple value `5`. The final `else` clause is optional. If it's omitted, and none of the other clauses match, the result is Scheme's [[special void value|rosetta1#void]].
530
531 The patterns here can be any literal value (what the Scheme standards call a "datum"). Numbers are permitted, as are boolean literals (`#t` and `#f`) and symbolic atoms (`'alpha` and the like, though inside a pattern position in a `case` construction, you omit the initial `'`). You can also use the list literal `'()` (again, omit the initial `'` when writing it as a pattern). Some implementations of Scheme allow more complex list patterns, matching literal lists like `'(alpha 0 () #t)`; others don't.
532
533 There are various add-on libraries to Scheme that will permit you to pattern-match in more ambitious ways, approximating what you can do in Kapulet, OCaml, and Haskell. We will explain some of these later in the course, after we've introduced you to the notion of *datatypes*.
534
535 What programmers using standard Scheme tend to do instead is to use *predicates* that query the type and/or structure of an unknown value, and then take separate evaluation paths depending on the result. This can be done with an `if ... then ... else ...` construction, or with Scheme's more general `cond` construction. In Scheme, these two are equivalent:
536
537     ; Scheme
538     (if test1 'result1                    ; else what follows:
539               (if test2 'result2          ; else what follows:
540                         (if test3 'result3 'somethingelse)))
541
542     (cond
543       (test1 'result1)
544       (test2 'result2)
545       (test3 'result3)
546       (else  'somethingelse))
547
548 The tests tend to use predicates like `null?` (are you the empty list?), `pair?` (are you a non-empty list, whether proper or improper?), `list?` (are you a proper list, whether empty or not?), `symbol?`, `boolean?`, `number?`, `zero?` (you get the idea). The *Little Schemer* books use their own predicates they call `atom?` (are you a non-list?) and `lat?` (are you a list all of whose members are atoms?) <!-- They seem to only use `symbol`s, `number`s, and `boolean`s as atoms. -->
549
550 You can also use more complex tests you write on the spot, or your own antecedently-defined functions:
551
552     ; Scheme...in case the parens left any doubt
553     (define smallprime? (lambda (x) (if (= x 2) #t (if (= x 3) #t (if (= x 5) #t #f)))))
554
555     (cond
556       ((= x 0) 'infant)
557       ((smallprime? x) 'myfavorite)
558       ((and (> x 10) (< x 20)) 'teenaged)
559       (else 'unknown))
560
561 Remember that in Scheme, an expression doesn't have to evaluate to `#t` to be treated as "truth-like". *Every* value other than `#f` is treated as truth-like. As I [[said before|rosetta1#truth-like]] `(if 0 'zero 'nope)` evaluates to `'zero`.
562
563 You may sometimes see Scheme `cond` constructions written with this kind of clause:
564
565     (cond
566       ...
567       (test-expression => function-value)
568       ...)
569
570 That's the same as the following:
571
572     (cond
573       ...
574       (test-expression (function-value test-expression))
575       ...)
576
577 Except that it only evaluates the test-expression once.
578
579 The clauses in Scheme's `cond` expressions can contain *multiple* expressions after the test. This only becomes useful when you're working with mutable values and side-effects, which we've not gotten to yet. The `if` expressions only take a single expression for the "then" branch and a single expression for the "else" branch. You can turn a complex series of expressions, which may involve side-effects, into a single expression by wrapping it in a `(begin ...)` construction. The `(begin ...)` construction as a whole evaluates to whatever the last expression it contains does.
580
581 Scheme standards after r5rs also provide two further conditional constructions, which are for the situations where you want to perform a meaningful action only on the "then" branch, or only on the "else" branch:
582
583     (when test-expression
584        result-expression1...)
585
586     (unless test-expression
587        result-expression2...)
588
589 If the test-expression evaluates to `#f`, then the `when` expression evaluates to Scheme's [[special void value|rosetta1#void]]; mutatis mutandis for the `unless` expression. This is analogous to `()` in OCaml, Haskell, and Kapulet.
590
591 In the last three languages, the expressions in the then-branch and the else-branch of a conditional have to have the same type. You can't say `if test-expression then 0 else []`. Also, they expect the test-expression to evaluate specifically to a boolean value, not merely to `'false` versus "anything else". They are stricter about types here than Scheme is.
592
593 In the special case where an else-branch evaluate to `()` (and thus so too must the then-branch), and the else-branch does so using no complex expression but merely the literal `()`, then OCaml permits you to omit that else-branch. So in OCaml you can write this:
594
595      if test_expression then then_result
596
597 instead of
598
599      if test_expression then then_result else ()
600
601 This is similar to Scheme's `when` construction. Kapulet and Haskell have no analogue.
602
603
604
605
606 ### Lambda expressions
607
608 In Kapulet you write &lambda; expressions (sometimes called "anonymous functions") with a prefix of either &lambda; or the spelled-out `lambda`. That's followed by one or more patterns, separated by spaces, then a period, then a single expression which makes up the body of the function. When there are multiple patterns, the function expressed is *curried*, thus:
609
610     lambda (x, y) z. result
611
612 means the same as:
613
614     lambda (x, y). (lambda z. result)
615
616 The parentheses could have been omitted around `lambda z. result`; they're just there to focus your attention.
617
618 Haskell and OCaml are very similar to this, they just use some slightly different notation. In Haskell you'd write:
619
620     -- Haskell
621     \(x, y) z -> result
622
623 and in OCaml you'd write:
624
625     (* OCaml *)
626     fun (x, y) z -> result
627
628 You may sometimes see &lambda; expressions in OCaml written using `function` instead of `fun`. These overlap somewhat in their usage. The difference is that `function` only allocates a position for *one* argument pattern, so can't straightforwardly define curried functions. (You can however embed `function` expressions inside other `function` expressions.) On the other hand, `function` can take multiple *variant* patterns for that single position. Thus with `function` you can say:
629
630     (* OCaml *)
631     function []    -> result1 |
632              x::xs -> result2
633
634 whereas with `fun` you'd have to write:
635
636     (* OCaml *)
637     fun ys -> match ys with
638                 []    -> result1 |
639                 x::xs -> result2
640
641 In Scheme, lambda expressions are written like this:
642
643     ; Scheme
644     (lambda (vars...) body-expressions...)
645
646 Scheme only permits simple variables as its argument patterns, and the lambda expression can be defined to take zero or more arguments:
647
648     ; Scheme
649     (lambda () ...)
650     (lambda (x) ...)
651     (lambda (x y) ...)
652     (lambda (x y z) ...)
653
654 As I said before, we will discuss functions that "take zero arguments" a few weeks into the seminar.
655
656 There is special syntax for defining functions that may take *varying* numbers of arguments (recall `and` and `+`), where Scheme binds a single variable to a list containing all of the received arguments (or all of the arguments after the *n*th...). I won't explain that syntax here.
657
658
659
660
661 ### Let, Letrec, and Define
662
663 Kapulet has the syntax:
664
665     # Kapulet
666     let
667       pat1  match expr1;
668       pat2  match expr2;
669       pat3  match expr3
670     in result
671
672 which is equivalent to:
673
674     # Kapulet
675     let
676       pat1  match expr1
677     in let
678       pat2  match expr2
679     in let
680       pat3  match expr3
681     in result
682
683 There is also a corresponding `letrec` form. In `let`, the bindings in `pat1` are in effect for the evaluation of all of `expr2`, `expr3`, and `result` (but not any further, if this is part of a more complex expression); similarly for the bindings in `pat2` and `pat3`. In `letrec`, all of the bindings on the left-hand side are in effect for all of the right-hand side expressions, as well as for the result.
684
685 OCaml only has the second, more verbose form of this, and writes it a bit differently:
686
687     (* OCaml *)
688     let
689       pat1  = expr1
690     in let
691       pat2  = expr2
692     in let
693       pat3  = expr3
694     in result
695
696 If you want to define some mutually recursive functions with `letrec`, OCaml uses a special syntax for that, using `letrec ...` <code><em>and</em></code> `... in ...`:
697
698     (* OCaml *)
699     letrec
700       even  = fun x -> if x = 0 then true else odd x
701     and
702       odd   = fun x -> if x = 0 then false else even x
703     in ...
704
705 Haskell has both of the syntactic forms that Kapulet does, though like OCaml, it uses `=` rather than `match`. And it wraps all the binding clauses with `{ ... }` (see [[earlier remarks|rosetta1#haskell-whitespace]] about Haskell and whitespace/indentation):
706
707     -- Haskell
708     let {
709       pat1  = expr1;
710       pat2  = expr2;
711       pat3  = expr3
712     } in result
713
714 Also, in Haskell `let` always means `letrec`. There is no term in Haskell that means what simple `let` does in Kapulet and OCaml.
715
716 Haskell also has another form, roughly synonymous with its `let ... in ...`. It looks like this:
717
718     -- Haskell
719     result where {
720       pat1  = expr1;
721       pat2  = expr2;
722       pat3  = expr3
723     }
724
725 Here all the new bindings introduced for the variables in the `pat`s are in effect for the evaluation of the `expr`s (this works like `letrec` too), and also for the evaluation of `result`.
726
727 There are a few places where you can use `let ... in ...` but not `... where ...`, and a few places where the inverse is true.
728
729 <!-- (1) `let pat = expr` has a use inside do-blocks and guards; (2) `let ... in ...` is an expression, and so can occur within other expressions; (3) `where` can bind multiple guard-clauses in a `case` block: in `case expr of { pat | g1 -> e1 | g2 -> e2 where { ... }; another_pat -> ... }`, the `where` bindings govern free variables in all of `g1`, `e1`, `g2`, `e2`. -->
730
731
732 <a id=five-lets></a>
733 Scheme has *four (or five)* syntactic forms here, including `let`, `let*`, `letrec`, and `letrec*`. The difference between the last two [is subtle](http://stackoverflow.com/questions/13078165) and only arises in the presence of continuations; you can just use `letrec` for ordinary purposes. I won't try to explain the difference between `let` and `let*` here, except to say this:
734
735 1.  When there's only a single pattern-binding clause, as in `(let ((var expression)) result)`, `let` and `let*` work the same.
736 2.  When there are multiple pattern-binding clauses, as in `(let ((var1 expression1) (var2 expression2)) result)`, then they work somewhat differently and `let*` is probably the one that works like you're expecting.
737
738 The `let*` form is the one that corresponds to `let` in Kapulet. I recommend you get in the habit of just always using `let*` (or `letrec`) in Scheme, instead of `let`.
739
740 When you're at the "toplevel" of your program, or of a library/module/compilation-unit (the terminology differs), there is also another syntactic form possible. In Kapulet, you'd write:
741
742     # Kapulet
743     let
744       pat1  match expr1;
745       ...
746     end
747     ... # rest of program or library
748
749 Notice that this form ends with `end`, not with `in result`. The above is roughly equivalent to:
750
751     # Kapulet
752     let
753       pat1  match expr1;
754       ...
755     in ... # rest of program or library
756     
757 That is, the bindings initiated by the clauses of the `let` construction remain in effect until the end of the program or library. They can of course be "hidden" by subsequent bindings to new variables spelled the same way. The program:
758
759     # Kapulet
760     let
761       x  match 0
762     end
763     let
764       x  match 1
765     end
766     x
767
768 evaluates to `1`, just like:
769
770     # Kapulet
771     let
772       x  match 0
773     in let
774       x  match 1
775     in x
776
777 does. There's a similar form for `letrec`.
778
779 OCaml can do the same:
780
781     let
782       x = 0 ;;
783     let
784       x = 1 ;;
785     x
786
787 The double-semicolons are hints to OCaml's "toplevel interpreter" that a syntactic unit has finished. In some contexts they're not needed, but it does no harm to include them if you're not sure.
788
789 Haskell's "toplevel interpreter" (ghci) permits a syntactic form that looks superficially quite like these:
790
791     let x = 2
792     x
793
794 but under the covers something quite different is happening. (Specifically, you're working "inside the IO Monad", except that in this special context, expressions like `x` that don't evaluate to monadic values are permitted and evaluated. We don't expect that you will understand yet what any of this means.) If you're writing *in a file* that you want Haskell to interpret or compile, on the other hand, you have to do something a bit different (which you can't easily also do at the toplevel in ghci). [[Recall|topics/week1_advanced_notes#funct-declarations]] the shortcut by which we permitted:
795
796     # Kapulet
797     let
798       f  match lambda pat1. body1;
799       g  match lambda pat2 pat3. body2
800     in ...
801
802 to be written more concisely as:
803
804     # Kapulet
805     let
806       f pat1      = body1;
807       g pat2 pat3 = body2
808     in ...
809
810 OCaml and Haskell permit that same shorthand. And Haskell additionally permits the bare binding clauses of such expressions (that is, without the surrounding `let` and `in`) to occur at the toplevel of files. In other words, a Haskell file can look like this:
811
812     -- Haskell file.hs
813     f pat1      = body1
814
815     g pat2 pat3 = body2
816     ...
817
818 Note there are no semicolons here. These are called "toplevel declarations" of the functions `f` and `g`. A single function name can have multiple declarations (within a single scoping context), using different patterns:
819
820     -- Haskell file.hs
821     f [] = 0
822     f (x:xs) = 1 + f xs
823
824 defines `f` as a function that returns the length of a single List argument. (You can also do that *inside* Haskell's `let` constructions, too.) This is what corresponds *in Haskell files* to `let ... end` in Kapulet.
825
826 Haskell also permits multiple declarations of this sort inside its `let` and `where` constructs, too. Moreover, these declarations can also have [[pattern guards|rosetta1#haskell-guards]], as in:
827
828     -- Haskell file.fs
829     f [] = 0
830     f (x:xs) | odd x = 1 + f xs
831              | otherwise = f xs
832
833 <a id=define></a>
834 Scheme has a version of `letrec ... end`, which it writes as `define`. Thus in Scheme this:
835
836     ; Scheme
837     (define var1 expr1)
838     ... ; rest of program
839
840 evaluates the same as this:
841
842     ; Scheme
843     (letrec ((var1 expr1))
844             ... ; rest of program
845                 )
846
847 This is what we can call Scheme's [[fifth|rosetta1#five-lets]] form of the `let` family.
848
849 Some versions of Scheme permit you also to include `define` inside some (but not all) complex expressions. Thus you can write:
850
851     (lambda (x)
852       (define var1 expr1)
853       ...)
854
855 instead of:
856
857     (lambda (x)
858       (letrec ((var1 expr1))
859       ...))
860
861 There is no analogue to this in the other languages.
862
863
864
865
866 ### Further Installments ...
867
868 We will expand these comparisons (on separate web pages) as we introduce additional ideas in the course, such as types and monads and continuations.
869
870
871
872
873 ## Offsite Readings comparing Scheme, OCaml, and Haskell ##
874
875 *   [Haskell for OCaml Programmers](http://science.raphael.poss.name/haskell-for-ocaml-programmers.pdf)
876 *   [Introduction to OCaml for Haskellers](http://foswiki.cs.uu.nl/foswiki/pub/Stc/BeyondFunctionalProgrammingInHaskell:AnIntroductionToOCaml/ocaml.pdf), [another](http://blog.ezyang.com/2010/10/ocaml-for-haskellers/)
877 *   Haskell Wiki on [OCaml](https://wiki.haskell.org/OCaml)
878 *   [ML Dialects and Haskell](http://hyperpolyglot.org/ml)
879 *   [Differences between Haskell and SML?](http://www.quora.com/What-are-the-key-differences-between-Haskell-and-Standard-ML?browse)
880 *   [Comparing SML to OCaml](http://www.mpi-sws.org/~rossberg/sml-vs-ocaml.html)
881 *   [Haskell vs Scheme](http://www.reddit.com/r/programming/comments/nq1k/haskell_and_scheme_which_one_and_why/)
882
883
884
885
886 ## Why did you name these pages "Rosetta"? ##
887
888 The [Rosetta Stone](https://en.wikipedia.org/wiki/Rosetta_Stone) is a famous slab discovered during Napoleon's invasion of Egypt, that had the same decree written in ancient Greek (which modern scholars understood) and two ancient Egyptian scripts (which they didn't). The slab enabled us to recover understanding of those Egyptian scripts; and has since come to be a symbol for the simultaneous expression of a single idea in multiple languages. A number of websites do this for various programming languages:
889
890 <table><th>
891 <td>Scheme
892 <td>OCaml
893 <td>Haskell
894 <tr>
895 <td rowspan=10>&nbsp;
896 <td><a href="http://rosettacode.org/wiki/Category:Scheme">Rosetta Code</a>
897 <td><a href="http://rosettacode.org/wiki/Category:OCaml">Rosetta Code</a>
898 <td><a href="http://rosettacode.org/wiki/Category:Haskell">Rosetta Code</a>
899 <tr>
900 <td><a href="http://pleac.sourceforge.net/pleac_guile/index.html">PLEAC</a>
901 <td><a href="http://pleac.sourceforge.net/pleac_ocaml/index.html">PLEAC</a>
902 <td><a href="http://pleac.sourceforge.net/pleac_haskell/index.html">PLEAC</a>
903 <tr>
904 <td>n/a
905 <td colspan=2 align=center><hr><a href="http://langref.org/ocaml+haskell/solved">langref.org</a>
906 <tr>
907 <td><a href="http://www.codecodex.com/wiki/Category:Scheme">code codex</a>
908 <td><a href="http://www.codecodex.com/wiki/Category:Objective_Caml">code codex</a>
909 <td><a href="http://www.codecodex.com/wiki/Category:Haskell">code codex</a>
910 <tr>
911 <td><a href="http://community.schemewiki.org/?ninety-nine-scheme-problems">99 problems</a>
912 <td><a href="http://ocaml.org/learn/tutorials/99problems.html">99 problems</a>
913 <td><a href="https://wiki.haskell.org/H-99:_Ninety-Nine_Haskell_Problems">99 problems</a>
914 </table>
915
916 See also the [Project Euler](https://projecteuler.net/) programming challenges.