rsc · fawick · Jul 9, 2017 · Aug 2, 2017 · Aug 2, 2017 · Mar 6, 2024
diff --git a/read.go b/read.go
@@ -839,6 +839,11 @@ func applyFilter(rd io.Reader, name string, param Value) io.Reader {
 		case 12:
 			return &pngUpReader{r: zr, hist: make([]byte, 1+columns), tmp: make([]byte, 1+columns)}
 		}
+	case "DCTDecode":
+		// DCTDecode indicates that the Image XObject data is a full JPEG
+		// encoded image, so we return the original reader as is, and leave it
+		// up to the caller to decode the image.
+		return rd
 	}
 }
 

diff --git a/read_test.go b/read_test.go
@@ -0,0 +1,41 @@
+package pdf_test
+
+import (
+	"image/jpeg"
+	"testing"
+
+	"rsc.io/pdf"
+)
+
+func TestReaderExtractXObjectDCTDecode(t *testing.T) {
+	const (
+		testscan = "testdata/testscan.pdf"
+	)
+	f, err := pdf.Open(testscan)
+	if err != nil {
+		t.Fatalf("could not open %v: %v", testscan, err)
+	}
+	x := f.Page(1).Resources().Key("XObject")
+	if x.Kind() != pdf.Dict || len(x.Keys()) == 0 {
+		t.Fatalf("no xobject dict on page 1")
+	}
+	k := x.Key(x.Keys()[0])
+	if k.IsNull() || k.Kind() != pdf.Stream || k.Key("Subtype").Name() != "Image" {
+		t.Fatalf("first xobject child is not an image stream")
+	}
+	defer func() {
+		if r := recover(); r != nil {
+			s, ok := r.(string)
+			if ok && s == "unknown filter DCTDecode" {
+				t.Fatalf("DCTDecode filter handling is not implemented")
+			}
+			panic(r) // re-panic everything else
+		}
+	}()
+	rc := k.Reader()
+	defer rc.Close()
+	_, err = jpeg.Decode(rc)
+	if err != nil {
+		t.Fatalf("could not decode embedded JPEG: %v", err)
+	}
+}
diff --git a/testdata/testscan.pdf b/testdata/testscan.pdf