edits
[lambda.git] / topics / _week10_gsv.mdwn
1 <!-- λ ◊ ≠ ∃ Λ ∀ ≡ α β γ ρ ω φ ψ Ω ○ μ η δ ζ ξ ⋆ ★ • ∙ ● ⚫ 𝟎 𝟏 𝟐 𝟘 𝟙 𝟚 𝟬 𝟭 𝟮 ⇧ (U+2e17) ¢ -->
2
3 [[!toc levels=2]]
4
5 # Doing things with monads
6
7 ## Extended application: Groenendijk, Stokhof and Veltman's *Coreference and Modality*
8
9 GSV are interested in developing and establishing a reasonable theory
10 of discourse update.  One way of looking at this paper is like this:
11
12   GSV = GS + V
13
14 That is, Groenendijk and Stokhof have a well-known theory of dynamic
15 semantics, and Veltman has a well-known theory of epistemic modality,
16 and this fragment brings both of those strands together into a single
17 system.  
18
19 We will be interested in this paper both from a theoretical point of
20 view and from a practical engineering point of view.  On the
21 theoretical level, these scholars are proposing a strategy for
22 managing the connection between variables and the objects they
23 designate in way that is flexible enough to be useful for describing
24 natural language.  The main way they attempt to do this is by
25 inserting an extra level in between the variable and the object:
26 instead of having an assignment function that maps variables directly
27 onto objects, GSV provide *pegs*: variables map onto pegs, and pegs
28 map onto objects.  We'll discuss in considerable detail what pegs
29 allow us to do, since it is highly relevant to one of the main
30 applications of the course, namely, reference and coreference.
31
32 What are pegs?  The term harks back to a paper by Landman called `Pegs
33 and Alecs'.  There pegs are simply hooks for hanging properties on.
34 Pegs are supposed to be as anonymous as possible.  Think of hanging
35 your coat on a physical peg: you don't care which peg it is, only that
36 there are enough pegs for everyone's coat to hang from.  Likewise, for
37 the pegs of GSV, all that matters is that there are enough of them.
38 (Incidentally, there is nothing in Gronendijk and Stokhof's original
39 DPL paper that corresponds naturally to pegs; but in their Dynamic
40 Montague Grammar paper, pegs serve a purpose similar to discourse
41 referents there, though the connection is not simple.)
42
43 On an engineering level, the fact that GSV are combining anaphora and
44 bound quantification with epistemic quantification means that they are
45 gluing together related but distinct subsystems into a single
46 fragment.  These subsystems naturally cleave into separate layers in a
47 way that is obscured in the paper.  We will argue in detail that
48 re-engineering GSV using monads will lead to a cleaner system that
49 does all of the same theoretical work.
50
51 Empirical targets: on the anaphoric side, GSV want to 
52
53 On the epistemic side, GSV aim to account for asymmetries such as
54
55     It might be raining.  It's not raining.
56     #It's not raining.  It might be raining.
57
58 ## Basics
59
60 There are a lot of formal details in the paper in advance of the
61 empirical discussion.  Here are the ones that matter:
62
63     type var = string
64     type peg = int
65     type refsys = var -> peg
66     type ent = Alice | Bob | Carl
67     type assignment = peg -> ent
68
69 So in order to get from a variable to an object, we have to compose a
70 refsys `r` with an assignment `g`.  For instance, we might have
71 r (g ("x")) = Alice.
72
73     type pred = string
74     type world = pred -> ent -> bool
75     type pegcount = int
76     type poss = world * pegcount * refsys * assignment
77     type infostate = [poss]
78
79 Worlds in general settle all matters of fact in the world.  In
80 particular, they determine the extensions of predicates and relations.
81 In this discussion, we'll (crudely) approximate worlds by making them
82 a function from predicates such as "man" to a function mapping each
83 entity to a boolean.  
84
85 As we'll see, indefinites as a side effect increase the number of pegs
86 by one.  GSV assume that we can determine what integer the next unused
87 peg corresponds to by examining the range of the refsys function.
88 We'll make things easy on ourselves by simply tracking the total
89 number of used pegs in a counter called `pegcount`.
90
91 So information states track both facts about the world (e.g., which
92 objects count as a man), and facts about the discourse (e.g., how many
93 pegs have been used).
94
95 The formal language the fragment interprets is Predicate Calculus with
96 equality, existential and universal quantification, and one unary
97 modality (box and diamond, corresponding to epistemic necessity and
98 epistemic possibility).
99
100 Terms in this language are either individuals such as Alice or Bob, or
101 else variables.  So in general, the referent of a term can depend on a
102 possibility:
103
104     ref(i, t) = t if t is an individual, and 
105                 g(r(t)) if t is a variable, where i = (w,n,r,g)
106
107 Here are the main clauses for update (their definition 3.1).  
108
109 Following GSV, we'll write `update(s, φ)` (the update of information
110 state `s` with the information in φ) as `s[φ]`.
111
112     s[P(t)] = {i in s | w(P)(ref(i,t))}
113
114 So `man(x)` is the set of live possibilities `i = (w,r,g)` in s such that
115 the set of men in `w` given by `w(man)` maps the object referred to by
116 `x`, namely, `r(g("x"))`, to `true`.   That is, update with "man(x)"
117 discards all possibilities in which "x" fails to refer to a man.
118
119     s[t1 = t2] = {i in s | ref(i,t1) = ref(i,t2)}
120
121     s[φ and ψ] = s[φ][ψ]
122
123 When updating with a conjunction, first update with the left conjunct,
124 then update with the right conjunct.
125
126 Existential quantification requires adding a new peg to the set of
127 discourse referents.  
128
129     s[∃xφ] = {(w, n+1, r[x->n], g[n->a]) | (w,n,r,g) in s and a in ent}[φ]
130
131 Here's the recipe: for every possibility (w,n,r,g) in s, and for every
132 entity a in the domain of discourse, construct a new possibility with
133 the same world w, an incrementd peg count n+1, and a new r and g
134 adjusted in such a way that the variable x refers to the object a.
135
136 Note that this recipe does not examine φ.  This means that this
137 analysis treats the formula prefix `∃x` as if it were a meaningful
138 constituent independent of φ.
139
140 Negation is natural enough:
141
142     s[neg φ] =  {i | {i}[φ] = {}}
143
144 If updating φ with the information state that contains only the
145 possibility i returns the empty information state, then not φ is true
146 with respect to i.
147
148 In GSV, disjunction, the conditional, and the universals are defined
149 in terms of negation and the other connectives.
150
151 Exercise: assume that there are two entities in the domain of
152 discourse, Alice and Bob.  Assume that Alice is a woman, and Bob is a
153 man.  Show the following computations, where `i = (w,n,r,g)`:
154
155     1. {i}[∃x.person(x)]
156
157        = {(w,n+1,r[x->n],g[n->a]),(w,n+1,r[x->n],g[n->b])}[person(x)]
158        = {(w,n+1,r[x->n],g[n->a]),(w,n+1,r[x->n],g[n->b])}
159
160     2. {i}[∃x.man(x)]
161
162        = {(w,n+1,r[x->n],g[n->a]),(w,n+1,r[x->n],g[n->b])}[person(x)]
163        = {(w,n+1,r[x->n],g[n->b])}
164
165
166     3. {i}[∃x∃y.person(x) and person(y)]
167
168        = {(w,n+1,r[x->n],g[n->a]),(w,n+1,r[x->n],g[n->b])}[∃y.person(x) and person(y)]
169        = {(w, n+2, r[x->n][y->n+1], g[n->a][n+1->a]),
170           (w, n+2, r[x->n][y->n+1], g[n->a][n+1->b]),
171           (w, n+2, r[x->n][y->n+1], g[n->b][n+1->a]),
172           (w, n+2, r[x->n][y->n+1], g[n->b][n+1->b])
173          }[person(x) and person(y)]
174        = {(w, n+2, r[x->n][y->n+1], g[n->a][n+1->a]),
175           (w, n+2, r[x->n][y->n+1], g[n->a][n+1->b]),
176           (w, n+2, r[x->n][y->n+1], g[n->b][n+1->a]),
177           (w, n+2, r[x->n][y->n+1], g[n->b][n+1->b])
178          }
179
180     4. {i}[∃x∃y.x=x]
181
182        = {(w, n+2, r[x->n][y->n+1], g[n->a][n+1->a]),
183           (w, n+2, r[x->n][y->n+1], g[n->a][n+1->b]),
184           (w, n+2, r[x->n][y->n+1], g[n->b][n+1->a]),
185           (w, n+2, r[x->n][y->n+1], g[n->b][n+1->b])
186          }[∃x∃y.x=x]
187        = {(w, n+2, r[x->n][y->n+1], g[n->a][n+1->a]),
188           (w, n+2, r[x->n][y->n+1], g[n->a][n+1->b]),
189           (w, n+2, r[x->n][y->n+1], g[n->b][n+1->a]),
190           (w, n+2, r[x->n][y->n+1], g[n->b][n+1->b])
191          }
192
193     5. {i}[∃x∃y.x=y]
194
195        = {(w, n+2, r[x->n][y->n+1], g[n->a][n+1->a]),
196           (w, n+2, r[x->n][y->n+1], g[n->a][n+1->b]),
197           (w, n+2, r[x->n][y->n+1], g[n->b][n+1->a]),
198           (w, n+2, r[x->n][y->n+1], g[n->b][n+1->b])
199          }[∃x∃y.x=y]
200        = {(w, n+2, r[x->n][y->n+1], g[n->a][n+1->a]),
201           (w, n+2, r[x->n][y->n+1], g[n->b][n+1->b])
202          }
203
204 ## Order and modality
205
206 The final remaining update rule concerns modality:
207
208     s[◊φ] = {i in s | s[φ] ≠ {}}
209
210 This is a peculiar rule: a possibility `i` will survive update just in
211 case something is true of the information state `s` as a whole.  That
212 means that either every `i` in `s` will survive, or none of them will.  The
213 criterion is that updating `s` with the information in φ does not
214 produce the contradictory information state (i.e., `{}`).  
215
216 So let's explore what this means.  GSV offer a contrast between two
217 discourses that differ only in the order in which the updates occur.
218 The fact that the predictions of the fragment differ depending on
219 order shows that the system is order-sensitive.
220
221     1. Alice isn't hungry.  #Alice might be hungry.
222
223 According to GSV, the combination of these sentences in this order is
224 `inconsistent', and they mark the second sentence with the star of
225 ungrammaticality.  We'll say instead that the discourse is
226 gramamtical, leave the exact word to use for its intuitive effect up
227 for grabs.  What is important for our purposes is to get clear on how
228 the fragment behaves with respect to these sentences.
229
230 We'll start with an infostate containing two possibilities.  In one
231 possibility (w1), Alice is hungry; in the other (w2), she is not.
232
233     = {(w1,n,r,g), (w2,n,r,g)}[Alice isn't hungry][Alice might be hungry]
234     = {(w2,n,r,g)}[Alice might be hungry]
235     = {}
236
237 As usual in dynamic theories, a sequence of sentences is treated as if
238 the sentence were conjoined.  This is the same thing as updating with
239 the first sentence, then updating with the second sentence.
240 Update with *Alice isn't hungry* eliminates the possibility in which
241 Alice is hungry (w1), leaving only the possibility containing w2.
242 Subsequent update with *Alice might be hungry* depends on the result
243 of updating with the prejacent, *Alice is hungry*.  Let's do that side
244 calculation:
245
246       {(w2,n,r,g)}[Alice is hungry]
247     = {}
248
249 Because the only possibility in the information state is one in which
250 Alice is not hungry, update with *Alice is hungry* results in an empty
251 information state.  That means that update with *Alice might be
252 hungry* will also be empty, as indicated above.
253
254 In order for update with *Alice might be hungry* to be non-empty,
255 there must be at least one possibility in the input state in which
256 Alice is hungry.  That is what epistemic might means in this fragment:
257 the prejacent must be possible.  But update with *Alice isn't hungry*
258 eliminates all possibilities in which Alice is hungry.  So the
259 prediction of the fragment is that update with the sequence in (1)
260 will always produce an empty information state.
261
262 In contrast, consider the sentences in the opposite order:
263
264     2. Alice might be hungry.  Alice isn't hungry.
265
266 We'll start with the same two possibilities.
267
268
269     = {(w1,n,r,g), (w2,n,r,g)}[Alice might be hungry][Alice isn't hungry]
270     = {(w1,n,r,g), (w2,n,r,g)}[Alice isn't hungry]
271     = {(w2,n,r,g)}
272
273 Update with *Alice might be hungry* depends on the result of updating
274 with the prejacent, *Alice is hungry*.  Here's the side calculation:
275
276       {(w1,n,r,g), (w2,n,r,g)}[Alice is hungry]
277     = {(w1,n,r,g)}
278
279 Since this update is non-empty, all of the original possibilities
280 survive update with *Alice might be hungry*.  By now it should be
281 obvious that update with a *might* sentence either has no effect, or
282 produces an empty information state.  The net result is that we can
283 then go on to update with *Alice isn't hungry*, yielding an updated
284 information state that contains only possibilities in which Alice
285 isn't hungry.
286
287 GSV comment that a single speaker couldn't possibly be in a position
288 to utter the discourse in (2).  The reason is that in order for the
289 speaker to appropriately assert that Alice isn't hungry, that speaker
290 would have to possess knowledge (or sufficient justification,
291 depending on your theory of the norms for assertion) that Alice isn't
292 hungry.  But if they know that Alice isn't hungry, they couldn't
293 appropriately assert *Alice might be hungry*, based on the predictions
294 of the fragment.  
295
296 Another view is that it can be acceptable to assert a sentence if it
297 is supported by the information in the common ground.  So if the
298 speaker assumes that as far as the listener knows, Alice might be
299 hungry, they can utter the discourse in (2).  Here's a variant that
300 makes this thought more vivid:
301
302     3. Based on public evidence, Alice might be hungry.  But in fact she's not hungry.
303
304 The main point to appreciate here is that the update behavior of the
305 discourses depends on the order in which the updates due to the
306 individual sentence occur.  
307
308 Note, incidentally, that there is an asymmetry in the fragment
309 concerning negation.
310
311     4. Alice might be hungry.  Alice *is* hungry.
312     5. Alice is hungry.  (So of course) Alice might be hungry.
313
314 Both of these discourses lead to the same update effect: all and only
315 those possibilites in which Alice is hungry survive.  If you think
316 that asserting *might* requires that the prejacent be undecided, you
317 will have to consider an update rule for the diamond on which update
318 with the prejacent and its negation must both be non-empty.
319
320