看了 《Foundations of stochastic inventory theory》 中的另一个例子,下面把这个例子描述下。
一个驾驶员到达目的地之前选择停车位,停车位的状态: 0 或 1, 表示停车位是否为空,0 表示空着,1 表示不空。空的概率为 p p , 不空的概率为 1−p 1 − p 。当前停车位举例重点距离为 x x ,停车成本为 x x 。若到了目的地还没找到停车位,只能听到付费停车位,成为为 c c 。
1. 状态变量
s=(x,i) s = ( x , i ) ,当前状态包括与终点的距离 x x ,以及停车位是否空着 i i 。
2. 决策
a=0 a = 0 表示停车, a=1 a = 1 表示不停车继续走。决策集合 A=0,1 A = 0 , 1
3. 状态转移方程
这个问题的状态转移方程不好表示,但并不影响最优递推表达式
4. 即时成本(immediate value)
这个问题的即时成本也不好表示,但也不影响最优递推表达式
5. 最优递推方程(recursion function)
设 f(x,i) f ( x , i ) 表示当前状态 (x,i) ( x , i ) 最小期望停车成本。对该问题反向递推
f(1,i)={min{1,c}ci=0i=1 f ( 1 , i ) = { min { 1 , c } i = 0 c i = 1
为了分析方便,引入一个辅助函数 F(x) F ( x ) (这个函数很巧妙),定义 F(0)=c F ( 0 ) = c
F(x)=pf(x,0)+(1−p)f(x,1) F ( x ) = p f ( x , 0 ) + ( 1 − p ) f ( x , 1 )
则可以得到递推函数:
f(x,i)={min{x,F(x−1)}F(x−1)i=0i=1 f ( x , i ) = { min { x , F ( x − 1 ) } i = 0 F ( x − 1 ) i = 1
6. 分析最优解性质
为了分析性质,一般都要先猜测最优解的特点,然后根据这个特点寻找性质并证明。
最优解的特点:存在一个最优距离 S S ,大于这个值时继续开车,小于这个值时则尽量停车。
因此需要分析 x x 与 F(x−1) F ( x − 1 ) 的大小关系,因此构造一个新的函数
g(x)=F(x−1)−x g ( x ) = F ( x − 1 ) − x
可以证明,
F(x) F ( x ) 为单调减函数,而
g(x) g ( x ) 为严格单调减函数 (
一个单调减函数与严格单调减函数的和为严格单调减函数)
并且 g(1)>0 g ( 1 ) > 0 , g(c)≤0 g ( c ) ≤ 0 ,因此一定存在一个 S S , g(S)>0 g ( S ) > 0 , g(S+1)≤0 g ( S + 1 ) ≤ 0
7. 构造马尔科夫链
定义 V(x,S) V ( x , S ) 表示在当前距离为 x x ,采用分位点 S S 的停车策略时的最小期望成本。则该策略下的马尔科夫链表达式如下:
V(x,S)=⎧⎩⎨cpx+(1−p)V(x−1,S)V(S,S)x=00<x≤Sx>S V ( x , S ) = { c x = 0 p x + ( 1 − p ) V ( x − 1 , S ) 0 < x ≤ S V ( S , S ) x > S
通过递推,得到 V(S,S) V ( S , S ) 的表达式如下,令 q=1−p q = 1 − p ,
V(S,S)==p∑i=0S(1−p)i(S−i)+(1−p)ScS−q(1−qS)p+qSc V ( S , S ) = p ∑ i = 0 S ( 1 − p ) i ( S − i ) + ( 1 − p ) S c = S − q ( 1 − q S ) p + q S c
为了求解,我们必须分析函数 V V 的性质,其一阶导数:
Δ(S)=V(S+1,S)−V(S,S)=1−qS(q+pc) Δ ( S ) = V ( S + 1 , S ) − V ( S , S ) = 1 − q S ( q + p c )
上式为增函数,可以推出
V V 为一个关于
S S 的凸函数。
令一阶导数为零,得到最优的 S S :
S≥−ln(q+pc)lnq S ≥ − ln ( q + p c ) ln q