update week1 notes
[lambda.git] / week1.mdwn
index dffe060..9af4054 100644 (file)
@@ -1,5 +1,7 @@
 These notes will recapitulate, make more precise, and to some degree expand what we did in the last hour of our first meeting, leading up to the definitions of the `factorial` and `length` functions.
 
+### Getting started ###
+
 We begin with a decidable fragment of arithmetic. Our language has some primitive literal values:
 
     0, 1, 2, 3, ...
@@ -99,15 +101,18 @@ Functions are another class of values we'll have in our language. They aren't "l
 
 I said we wanted to be starting with a fragment of arithmetic, so we'll keep the function values off-stage for the moment, and also all the symbolic atoms except for `'true` and `'false`. So we've got numbers, truth-values, and some functions and relations (that is, boolean functions) defined on them. We also help ourselves to a notion of bounded quantification, as in &forall;`x < M.` &phi;, where `M` and &phi; are (simple or complex) expressions that evaluate to a number and a boolean, respectively. We limit ourselves to *bounded* quantification so that the fragment we're dealing with can be "effectively" or mechanically decided. (As we extend the language, we will lose that property, but it will be a topic for later discussion exactly when that happens.)
 
-As I mentioned in class, I will sometimes write &forall; x : &psi; . &phi; in my informal metalanguage, where the &psi; clause represents the quantifier's *restrictor*. Other people write this like `[`&forall; x : &psi; `]` &phi;, or in various other ways. My notation is meant to parallel the notation some linguists (for example, Heim &amp; Kratzer) use in writing &lambda; x : &psi; . &phi;, where &psi;  clause restricts the range of arguments over which the function designated by the &lambda; expression is defined. Later we will see the colon used in a somewhat similar (but also somewhat different) way in our programming languages. But that's just foreshadowing.
+As I mentioned in class, I will sometimes write &forall; x : &psi; . &phi; in my informal metalanguage, where the &psi; clause represents the quantifier's *restrictor*. Other people write this like `[`&forall; x : &psi; `]` &phi;, or in various other ways. My notation is meant to parallel the notation some linguists (for example, Heim &amp; Kratzer) use in writing &lambda; x : &psi; . &phi;, where &psi;  clause restricts the range of arguments over which the function designated by the &lambda;-expression is defined. Later we will see the colon used in a somewhat similar (but also somewhat different) way in our programming languages. But that's just foreshadowing.
+
 
-So we have bounded quantification as in &forall; `x < 10.` &phi;. Obviously we could also make sense of &forall; `x == 5.` &phi; in just the same way. This would evaluate &phi; but with the variable `x` now bound to the value `5`, ignoring whatever it may be bound to in broader contexts. I will express this idea in a more perspicuous vocabulary, like this: `let x be 5 in` &phi;.
+### Let and lambda ###
+
+So we have bounded quantification as in &forall; `x < 10.` &phi;. Obviously we could also make sense of &forall; `x == 5.` &phi; in just the same way. This would evaluate &phi; but with the variable `x` now bound to the value `5`, ignoring whatever it may be bound to in broader contexts. I will express this idea in a more perspicuous vocabulary, like this: `let x be 5 in` &phi;. (I say `be` rather than `=` because, as I mentioned before, it's too easy for the `=` sign to get used for too many subtly different jobs.)
 
 As one of you was quick to notice in class, though, when I shift to the `let`-vocabulary, I no longer restricted myself to just the case where &phi; evaluates to a boolean. I also permitted myself expressions like this:
 
     let x be 5 in x + 1
 
-which evaluates to `6`. Okay, fair enough, so I am moving beyond the &forall; `x==5.` &phi; idea when I do this. But the rule for how to interpret this are just a straightforward generalization of our existing understanding for how to interpret bound variables. So there's nothing fundamentally novel here.
+which evaluates to `6`. Okay, fair enough, so I am moving beyond the &forall; `x==5.` &phi; idea when I do this. But the rules for how to interpret this are just a straightforward generalization of our existing understanding for how to interpret bound variables. So there's nothing fundamentally novel here.
 
 We can have multiple `let`-expressions embedded, as in:
 
@@ -128,4 +133,203 @@ It's okay to also write it all inline, like so: `let x be 5; y be x + 1 in 2 * y
 
 The `x + 1` that is evaluated to give the value that `y` gets bound to uses the (more local) binding of `x` to `5`, not the (previous, less local) binding of `x` to `0`. By the way, the parentheses in that displayed expression were just to focus your attention. It would have parsed and meant the same without them.
 
-*More to come.*
+Now we can allow ourselves to introduce &lambda;-expressions in the following way. If a &lambda;-expression is applied to an argument, as in: `(`&lambda; `x.` &phi;`) M`, for any (simple or complex) expressions &phi; and `M`, this means the same as: `let x be M in` &phi;. That is, the argument to the &lambda;-expression provides (when evaluated) a value for the variable `x` to be bound to, and then the result of the whole thing is whatever &phi; evaluates to, under that binding to `x`.
+
+If we restricted ourselves to only that usage of &lambda;-expressions, that is when they were applied to all the arguments they're expecting, then we wouldn't have moved very far from the decidable fragment of arithmetic we began with.
+
+However, it's tempting to help ourselves to the notion (at least partly) *unapplied* &lambda;-expressions, too. If I can make sense of what:
+
+`(`&lambda; `x. x + 1) 5`
+
+means, then I can make sense of what:
+
+`(`&lambda; `x. x + 1)`
+
+means, too. It's just *the function* that waits for an argument and then returns the result of `x + 1` with `x` bound to that argument.
+
+This does take us beyond our (first-order) fragment of arithmetic, at least if we allow the bodies and arguments of &lambda;-expressions to be any expressible value, including other &lambda;-expressions. But we're having too much fun, so why should we hold back?
+
+So now we have a new kind of value our language can work with, alongside numbers and booleans. We now have function values, too. We can bind these function values to variables just like other values:
+
+`let id be` &lambda; `x. x; y be id 5 in y`
+
+will evaluate to `5`. In reaching that result, the variable `id` was temporarily bound to the identity function, that expects an argument, binds it to the variable `x`, and then returns the result of evaluating `x` under that binding.
+
+This is what is going on, behind the scenes, with all the expressions like `succ` and `+` that I said could really be understood as variables. They have just been pre-bound to certain agreed-upon functions rather than others.
+
+
+### Containers ###
+
+So far, we've only been talking about *atomic* values. Our language will also have some *container* values, that have other values as members. One example are **ordered sequences**, like:
+
+    [10, 20, 30]
+
+This is a sequence of length 3. It's the result of *cons*ing the value `10` onto the front of the shorter, length-2 sequence `[20, 30]`. In this made-up language, we'll represent the sequence-consing operation like this:
+
+    10 & [20, 30]
+
+If you want to know why we call it "cons", that's because this is what the operation is called in Scheme, and they call it that as shorthand for "constructing" the longer list (they call it a "list" rather than a "sequence") out of the components `10` and `[20, 30]`. The name is a bit unfortunate, though, because other structured values besides lists also get "constructed", but we don't say "cons" about them. Still, this is the tradition. Let's just take "cons" to be a nonsense label with an interesting back-history.
+
+The sequence `[20, 30]` in turn is the result of:
+
+    20 & [30]
+
+and the sequence `[30]` is the result of consing `30` onto the empty sequence `[]`. Note that the sequence `[30]` is not the same as the number `30`. The former is a container value, with one element. The latter is an atomic value, and as such won't have any elements. If you try to do this:
+
+    [30] + 1
+
+it won't work. We haven't discussed what happens with illegal expressions like that, or like `'true + 1`. For the time being, I'll just say these "don't work", or that they "crash". We'll discuss the variety of ways these illegalities might be handled later.
+
+Also, if you try to do this:
+
+    20 & 30
+
+it won't work. The consing operator `&` always requires a container (here, a sequence) on its right-hand side. And `30` is not a container.
+
+We've said that:
+
+    [10, 20, 30]
+
+is the same as;
+
+    10 & (20 & (30 & []))
+
+and the latter can also be written without the parentheses. Our language knows that `&` should always be understood as "implicitly associating to the right", that is, that:
+
+    10 & 20 & 30 & []
+
+should be interpreted like the expression displayed before. Other operators like `-` should be understood as "implicitly associating to the left." If we write:
+
+    30 - 2 - 1
+
+we presumably want it to be understood as:
+
+    (30 - 2) - 1
+
+not as:
+
+    30 - (2 - 1)
+
+Other operators don't implicitly associate at all. For example, you may understand the expression:
+
+    10 < x < 20
+
+because we have familiar conventions about what it means. But what it means is not:
+
+    (10 < x) < 20
+
+The result of the parenthesized expression is either `'true` or `'false`, assuming `x` evaluates to a number. But `'true < 20` doesn't mean anything, much less what we expect `10 < x < 20` to mean. So `<` doesn't implicitly associate to the left. Neither does it implicitly associate to the right. If you want expressions like `10 < x < 20` to be meaningful, they will need their own special rules.
+
+Sequences are containers that keep track of the order of their arguments, and also those arguments' multiplicity (how many times each one appears). Other containers might also keep track of these things, and more structural properties too, or they might keep track of less. Let's say we also have **set containers** too, like this:
+
+    {10, 20, 30}
+
+Whereas the sequences `[10, 20, 10]`, `[10, 20]`, and `[20, 10]` are three different sequences, `{10, 20, 10}`, `{10, 20}`, and `{20, 10}` would just be different ways of expressing a single set.
+
+We can let the `&` operator do extra-duty, and express the "consing" relation for sets, too:
+
+    10 & {20}
+
+would evaluate to `{10, 20}`, and so too would:
+
+    10 & {10, 20}
+
+As I mentioned in class, we'll let `&&` express the operation by which two sequences are appended or concatenated to each other:
+
+    [10, 20] && [30, 40, 50]
+
+will evaluate to `[10, 20, 30, 40, 50]`. For sets, we'll let `and` and `or` and `-` do extra duty, and express set intersection, set union, and set subtraction, when their arguments are sets. If the arguments of `and` and `or` are booleans, on the other hand, or the arguments of `-` are numbers, then they express the functions we were understanding them to express before.
+
+In addition to sequences, there's another kind of expression that might initially be confused with them. We might call these **tuples** or **multivalues**. They are written surrounded by parentheses rather than square brackets. Here's an example:
+
+`(0, 'true,` &lambda;`x. x)`
+
+That's a tuple with 3 elements (also called a "triple").
+
+In the programming languages and other formal systems we'll be looking at, tuples and sequences are often understood and handled differently. This is because we apply different assumptions to them. In the case of a sequence, it's assumed that they will have homogeneously-typed elements, and that their length will be irrelevant to their own type. So you can have the sequence:
+
+    [20, 30]
+
+and the sequence:
+
+    [30]
+
+and even the sequence:
+
+    []
+
+and these will all be of the same type, namely a sequence of numbers. You can have sequences with other types of elements, too, for example a sequence of booleans:
+
+    ['true, 'false, 'true]
+
+or a sequence of sequences of numbers:
+
+    [[10, 20], [], [30]]
+
+An excellent question that came up in class is "How do we tell whether `[]` expresses the empty sequence of numbers or the empty sequence of something else?" We will discuss that question in later weeks. It's central to some of the developments we'll be exploring. For now, just put that question on a mental shelf and assume that somehow this just works out right.
+
+Now whereas sequences expect homogenously-typed elements, and their length is irrelevant to their own type, mulivalues or tuples are the opposite in both respects. They may have elements of heterogenous type, as our example:
+
+`(0, 'true,` &lambda;`x. x)`
+
+did. They need not, but they may. Also, the type of a multivalue or tuple does depend on its length, and moreover on the specific types of each of its elements. A tuple of length 2 (also called a "pair") whose first element is a number and second element is a boolean is a different type of thing that a tuple whose first element is a boolean and whose second element is a number. Most functions expecting the first as an argument will crash if you give them the second instead.
+
+Earlier I said that we can call these things "multivalues or tuples". Here I'll make a technical comment, that in fact I'll understand these slightly differently. Really I'll understand the bare expression `(10, x)` to express a multivalue, and to express a tuple proper, you'll have to write `Pair (10, x)` or something like that. The difference between these is that only the tuple is itself a single value that can be bound to a single variable. The multivalue isn't a single value at all, but rather a plurality of values. This is a bit subtle, and other languages we're looking at this term don't always make this distinction. But the result is that they have to say complicated things elsewhere. If we permit ourselves this fine distinction here, many other things downstream will go more smoothly than they do in the languages that don't make it. Ours is just a made-up language, but I've thought this through carefully, so humor me. We haven't yet introduced the apparatus to make sense of expressions like `Pair (10, x)`, so for the time being I'll just restrict myself to multivalues, not to tuples proper. The result will be that while we can say:
+
+    let x be [10, 20] in ...
+
+that is, sequences are first-class values in our language, we can't say:
+
+    let x be (10, 'true) in ...
+
+or even:
+
+    let x be (10, 20) in ...
+
+However, intuitively it ought to make sense to say:
+
+    let (x, y) be (10, 'true) in ...
+
+That should just bind the variable `x` to the value `10` and the variable `y` to the value `'true`, and go on to evaluate the rest of the expression with those bindings in place. In this particular example, we could equally have said:
+
+    let x be 10; y be 'true in ...
+
+but in other examples it will be substantially more convenient to be able to bind `x` and `y` simultaneously. Here's an example:
+
+`let`  
+&nbsp;&nbsp;`f be` &lambda; `x. (x, 2*x)`  
+&nbsp;&nbsp;`(x, y) be f 10`  
+`in [x, y]`
+
+which will evaluate to `[10, 20]`. Note that we have the function `f` returning two values, rather than just one, just by having its body evaluate to a multivalue rather than to a single value.
+
+It's a little bit awkward to say `let (x, y) be ...`, so I propose we instead always say `let (x, y) match ...`. (This will be even more natural as we continue generalizing what we've done here, as we will in the next section.) For consistency, we'll say `match` instead of `be` in all cases, so that we write even this:
+
+    let
+      x match 10
+    in ...
+
+rather than:
+
+    let
+      x be 10
+    in ...
+
+
+
+### Patterns ###
+
+
+
+
+*More coming*
+
+### Recursive let ###
+
+*More coming*
+
+### Comparing recursive-style and iterative-style definitions ###
+
+*More coming*
+
+