b56fcc0fa9f9a2b1a248fd147560319152a74263
[lambda.git] / topics / _week15_continuation_applications.mdwn
1 <!-- λ ◊ ≠ ∃ Λ ∀ ≡ α β γ ρ ω φ ψ Ω ○ μ η δ ζ ξ ⋆ ★ • ∙ ● ⚫ 𝟎 𝟏 𝟐 𝟘 𝟙 𝟚 𝟬 𝟭 𝟮 ⇧ (U+2e17) ¢ -->
2 [[!toc]]
3
4 # Applications of continuations to natural language
5
6 We've seen a number of applications of monads to natural language,
7 including presupposition projection, binding, intensionality, and the
8 dynamics of the GSV fragment.
9
10 In the past couple of weeks, we've introduced continuations, first as
11 a functional programming technique, then in terms of list and tree
12 zippers, then as a monad.  In this lecture, we will generalize
13 continuations slightly beyond a monad, and then begin to outline some
14 of the applications of monads.  In brief, the generalization can be
15 summarized in terms of types: instead of using a Kleisli arrow mapping
16 a type α to a continuized type (α -> ρ) -> ρ, we'll allow the result
17 types to differ, i.e., we'll map α to (α -> β) -> γ.  This will be
18 crucial for some natural language applications.
19
20 Many (though not all) of the applications are discussed in detail in
21 Barker and Shan 2014, *Continuations in Natural Language*, OUP.
22
23 In terms of list zippers, the continuation of a focused element in
24 the list is the front part of the list.
25
26     list zipper for the list [a;b;c;d;e;f] with focus on d:
27
28         ([c;b;a], [d;e;f])
29          -------
30      defunctionalized 
31      continuation
32
33 In terms of tree zippers, the continuation is the entire context of
34 the focused element--the entire rest of the tree.
35
36 [drawing of a broken tree]
37
38 Last week we had trouble computing the doubling task when there was more
39 than one shifty operator after moving from a list perspective to a
40 tree perspective.  That is, it remained unclear why "aScSe" was
41
42     "aacaceecaacaceecee"
43
44 We'll burn through that conceptual fog today.  The natural thing to
45 try would have been to defunctionalize the continuation-based solution
46 using a tree zipper.  But that would not have been easy, since the
47 natural way to implement the doubling behavior of the shifty operator
48 would have been to simply copy the context provided by the zipper.  
49 This would have produced two uncoordinated copies of the other shifty
50 operator, and we'd have been in the situation described in class of
51 having a reduction strategy that never reduced the number of shifty
52 operators below 2. (There are ways around this limitation of tree zippers, 
53 but they are essentially equivalent to the technique given just below.)
54
55 Instead, we'll re-interpreting what the continuation monad was doing
56 in more or less defunctionalized terms by using Quantifier Raising, a technique
57 from linguistics.
58
59 But first, motivating quantifier scope as a linguistic application.
60
61 # The primary application of continuations to natural language: scope-taking
62  
63 We have seen that continuations allow a deeply-embedded element to
64 take control over (a portion of) the entire computation that contains
65 it.  In natural language semantics, this is exactly what it means for
66 a scope-taking expression to take scope.
67
68     1. [Ann put a copy of [everyone]'s homeworks in her briefcase]
69
70     2. For every x, [Ann put a copy of x's homeworks in her briefcase]
71
72 The sentence in (1) can be paraphrased as in (2), in which the
73 quantificational DP *everyone* takes scope over the rest of the sentence.
74 Even if you suspect that there could be an analysis of (2) on which
75 "every student's term paper" could denote some kind of mereological
76 fusion of a set of papers, it is much more difficult to be satisfied
77 with a referential analysis when *every student* is replaced with 
78 *no student*, or *fewer than three students*, and so on---see any
79 semantics text book for abundant discussion.
80
81 We can arrive at an analysis by expressing the meaning of
82 quantificational DP such as *everyone* using continuations:
83
84     3. everyone = shift (\k.∀x.kx)
85
86 Assuming there is an implicit reset at the top of the sentence (we'll
87 explicitly address determining where there is or isn't a reset), the
88 reduction rules for `shift` will apply the handler function (\k.∀x.kx)
89 to the remainder of the sentence after abstracting over the position
90 of the shift expression:
91
92     [Ann put a copy of [shift (\k.∀x.kx)]'s homeworks in her briefcase]
93     ~~> (\k.∀x.kx) (\v. Ann put a copy of v's homeworks in her briefcase)
94     ~~> ∀x. Ann put a copy of x's homeworks in her briefcase
95
96 (To be a bit pedantic, this reduction sequence is more suitable for
97 shift0 than for shift, but we're not being fussy here about subflavors
98 of shifty operators.)
99
100 The standard technique for handling scope-taking in linguistics is
101 Quantifier Raising (QR).  As you might suppose, the rule for Quantifier
102 Raising closely resembles the reduction rule for shift:
103
104     Quantifier Raising: given a sentence [... [QDP] ...], build a new
105     sentence [QDP (\x.[... [x] ...])].  
106
107 Here, QDP is a scope-taking quantificational DP.
108
109 Just to emphasize the similarity between QR and shift, we can use QR
110 to provide insight into the tree task that mystified us earlier.
111
112 <!--
113 \tree (. (a)((S)((d)((S)(e)))))
114 -->
115
116 <pre>
117   .
118 __|___
119 |    |
120 a  __|___
121    |    |
122    S  __|__
123       |   |
124       d  _|__
125          |  |
126          S  e
127 </pre>
128
129 First we QR the lower shift operator
130
131 <!--
132 \tree (. (S) ((\\x) ((a)((S)((d)((x)(e)))))))
133 -->
134
135 <pre>
136    .
137 ___|___
138 |     |
139 S  ___|___
140    |     |
141    \x  __|___
142        |    |
143        a  __|___
144           |    |
145           S  __|__
146              |   |
147              d  _|__
148                 |  |
149                 x  e
150 </pre>
151
152 Next, we QR the upper shift operator
153
154 <!--
155 \tree (. (S) ((\\y) ((S) ((\\x) ((a)((y)((d)((x)(e)))))))))
156 -->
157
158 <pre>
159    .
160 ___|___
161 |     |
162 S  ___|____
163    |      |
164    \y  ___|___
165        |     |
166        S  ___|___
167           |     |
168           \x  __|___
169               |    |
170               a  __|___
171                  |    |
172                  y  __|__
173                     |   |
174                     d  _|__
175                        |  |
176                        x  e
177 </pre>
178
179 We then evaluate, using the same value for the shift operator proposed before:
180
181     shift = \k.k(k "")
182
183 It will be easiest to begin evaluating this tree with the lower shift
184 operator (we get the same result if we start with the upper one).
185 The relevant value for k is (\x.a(y(d(x e)))).  Then k "" is
186 a(y(d(""(e)))), and k(k "") is a(y(d((a(y(d(""(e)))))(e)))).  In tree
187 form:
188
189 <!--
190 \tree (. (S) ((\\y) ((a)((y)((d)(((a)((y)((d)(("")(e)))))(e)))))))
191 -->
192
193 <pre>
194    .
195 ___|___
196 |     |
197 S  ___|____
198    |      |
199    \y  ___|___
200        |     |
201        a  ___|___
202           |     |
203           y  ___|___
204              |     |
205              d  ___|___
206                 |     |
207               __|___  e
208               |    |
209               a  __|___
210                  |    |
211                  y  __|___
212                     |    |
213                     d  __|__
214                        |   |
215                        ""  e
216 </pre>
217
218
219 Repeating the process for the upper shift operator replaces each
220 occurrence of y with a copy of the whole tree.
221
222 <!--
223 \tree (. ((a)((((a)(("")((d)(((a)(("")((d)(("")(e)))))(e))))))((d)(((a)((((a)(("")((d)(((a)(("")((d)(("")(e)))))(e))))))((d)(("")(e)))))(e))))))
224 -->
225
226 <pre>
227       .
228       |
229 ______|______
230 |           |
231 a  _________|__________
232    |                  |
233    |               ___|___
234 ___|___            |     |
235 |     |            d  ___|____
236 a  ___|____           |      |
237    |      |        ___|____  e
238    ""  ___|___     |      |
239        |     |     a  ____|_____
240        d  ___|___     |        |
241           |     |     |      __|___
242        ___|___  e  ___|___   |    |
243        |     |     |     |   d  __|__
244        a  ___|___  a  ___|____  |   |
245           |     |     |      |  ""  e
246           ""  __|___  ""  ___|___
247               |    |      |     |
248               d  __|__    d  ___|___
249                  |   |       |     |
250                  ""  e    ___|___  e
251                           |     |
252                           a  ___|___
253                              |     |
254                              ""  __|___
255                                  |    |
256                                  d  __|__
257                                     |   |
258                                     ""  e
259 </pre>
260
261 The yield of this tree (the sequence of leaf nodes) is
262 aadadeedaadadeedee, which is the expected output of the double-shifted tree.
263
264 Exercise: the result is different, by the way, if the QR occurs in a
265 different order.
266
267 Three lessons:
268
269 * Generalizing from one-sided, list-based continuation
270   operators to two-sided, tree-based continuation operators is a
271   dramatic increase in power and complexity.
272
273 * Operators that
274   compose multiple copies of a context can be hard to understand.
275
276 * When considering two-sided, tree-based continuation operators,
277   quantifier raising is a good tool for visualizing (defunctionalizing)
278   the computation.
279
280 ## Tower notation
281
282 At this point, we have three ways of representing computations
283 involving control operators such as shift and reset: using a CPS
284 transform, lifting into a continuation monad, and by using QR.
285
286 QR is the traditional system in linguistics, but it will not be
287 adequate for us in general.  The reason has to do with order.  As
288 we've discussed, especially with respect to the CPS transform,
289 continuations allow fine-grained control over the order of evaluation.
290 One of the main empirical claims of Barker and Shan 2014 is that
291 natural language is sensitive to evaluation order.  Unlike other
292 presentations of continuations, QR does not lend itself to reasoning
293 about evaluation order, so we will need to use a different strategy.
294
295 [Note to self: it is interesting to consider what it would take to
296 reproduce the analyses giving in Barker and Shan in purely QR terms.
297 Simple quantificational binding using parasitic scope should be easy,
298 but how reconstruction would work is not so clear.]
299
300 We'll present tower notation, then comment and motivate several of its
301 features as we consider various applications.  For now, we'll motivate
302 the tower notation by thinking about box types.  In the discussion of
303 monads, we've thought of monadic types as values inside of a box.  The
304 box will often contain information in addition to the core object.
305 For instance, in the Reader monad, a boxed int contains an expression
306 of type int as the payload, but also contains a function that
307 manipulates a list of information.  It is natural to imagine
308 separating a box into two regions, the payload and the hidden scratch
309 space:
310
311 <pre>
312     _______________               _______________           _______________ 
313     | [x->2, y->3] |              | [x->2, y->3] |          | [x->2, y->3] |
314   -------------------           ------------------         ------------------
315     |              |     ¢        |              |    =     |              |
316     |    +2        |              |     y        |          |     5        |
317     |______________|              |______________|          |______________|
318 </pre>
319
320 For people who are familiar with Discourse Representation Theory (Kamp
321 1981, Kamp and Reyle 1993), this separation of boxes into payload and
322 discourse scorekeeping will be familiar (although many details differ).
323
324 The general pattern is that monadic treatments separate computation
325 into an at-issue (pre-monadic) computation with a layer at which
326 side-effects occur.
327
328 The tower notation is a precise way of articulating continuation-based
329 computations into a payload and (potentially multiple) layers of side-effects.
330 We won't keep the outer box, but we will keep the horizontal line
331 dividing main effects from side-effects.
332
333 Tower convention for types:
334                                               γ | β
335     (α -> β) -> γ can be equivalently written ----- 
336                                                 α
337
338 Tower convention for values:
339                                            g[] 
340     \k.g[k(x)] can be equivalently written ---
341                                             x
342
343 If \k.g[k(x)] has type (α -> β) -> γ, then k has type (α -> β).
344
345 Here "g[ ]" is a *context*, that is, an expression with (exactly) one
346 hole in it.  For instance, we might have g[x] = \forall x.P[x].
347
348 We'll use a simply-typed system with two atomic types, DP (the type of
349 individuals) and S (the type of truth values).  
350
351 Then in the spirit of monadic thinking, we'll have a way of lifting an
352 arbitrary value into the tower system:
353
354                                            []    γ|β
355     LIFT (x:α) = \k.kx : (α -> β) -> γ ==  --- : ---
356                                            x      α
357
358 Obviously, LIFT is exactly the midentity (the unit) for the continuation monad.
359 The name comes from Partee's 1987 theory of type-shifters for
360 determiner phrases.  Importantly, LIFT applied to an
361 individual-denoting expression yields the generalized quantifier
362 proposed by Montague as the denotation for proper names:
363
364                                             []   S|S 
365     LIFT (j:DP) = \k.kx : (DP -> S) -> S == -- : ---
366                                             j    DP
367
368 So if the proper name *John* denotes the individual j, LIFT(j) is the
369 generalized quantifier that maps each property k of type DP -> S to true
370 just in case kj is true.
371
372 Once we have expressions of type (α -> β) -> γ, we'll need to combine
373 them.  We'll use the ¢ operator from the continuation monad:
374
375     g[]    γ | δ      h[]   δ | ρ    g[h[]]   γ | ρ
376     --- : -------  ¢  --- : ----- == ------ : -----
377     f     α -> β      x       α        fx       β
378
379 Note that the types below the horizontal line combine just like
380 functional application (i.e, f:(α->β) (x:α) = fx:β).
381
382 To demonstrate that this is indeed the continuation monad's ¢
383 operator:
384
385       ¢ (\k.g[kf]) (\k.h[kx])
386     = (\MNk.M(\m.N(\n.k(mn)))) (\k.g[kf]) (\k.h[kx])
387     ~~> \k.(\k.g[kf])(\m.(\k.h[kx])(\n.k(mn))
388     ~~> \k.g[(\k.h[kx])(\n.k(fn))
389     ~~> \k.g[h[k(fx)]]
390
391        g[h[]]
392     == ------
393          fx
394
395 Not a monad (Wadler); would be if the types were
396 Neverthless, obeys the monad laws.
397
398 This is (almost) all we need to get some significant linguistic work
399 done.  
400